Just what the doctor ordered!


Как напарсить больше 1000 ссылок в Google

Как напарсить больше 1000 ссылок в Google - практические советы.

Итак, в процессе работы или обучения перед многими возникает такой вопрос: “Google ведь отдает всего 1000 ссылок, как напарсить больше?”

1. Пользуйтесь хорошим парсером - из бесплатно распространяемых десктопных автопарсеров пока мне больше всех нравиться AGGRESS парсер (скачать можно здесь). Из ручных - AllSubmitter.

2. Изучите операторы Google и других ПС т.к. возможности своих рабочих инструментов нужно знать досконально. Для этого рекомендую почитать интересную, пускай и 2004 года, книгу Google Hacks

Теперь перейдем к конкретике:

1. Используйте поиск по разным доменным зонам. Например:

“Powered by phpBB” site:com
“Powered by phpBB” site:net
“Powered by phpBB” site:org
“Powered by phpBB” site:biz
“Powered by phpBB” site:de
“Powered by phpBB” site:info
“Powered by phpBB” site:nu
“Powered by phpBB” site:ws
“Powered by phpBB” site:en
“Powered by phpBB” site:.nl
“Powered by phpBB” site:it
“Powered by phpBB” site:us

В идеале для каждого такого запроса мы получим по 1000 результатов из разных доменных зон

2. Используйте оператор “+”. Например, мы можем сделать такие поисковые запросы:

“Powered by phpBB” +bank
“Powered by phpBB” +ball
“Powered by phpBB” +money
“Powered by phpBB” +jewel

И в результате получим страницы содержащие наш запрос и указанное слово. Специально для подобных целей я собрал в табличку общеупотребительные слова английского языка. Скачать можно здесь Естественно в процессе работы каждый может расширить этот документ в соответствии со своими потребностями

3. Если уж срать по форумам, то лучше срать по тематическим - больше шансов, что пост выживет и для Google тематический линк представляет большее значение. Значит составляем список тематических кеев для нашей странички/сайта. Быстро это можно сделать с помощью Google Keyword Tool Натравите его на вашу страничку и скачайте полученный *.csv файл. Кстати, тем кто еще не знает про Google LSI, рекомендую прочитать полезный пост у Незамутненного.

4. Более качественную выдачу дают запросы с операторами inurl: и allinurl:. Используйте их комбинируя с советами из пунктов 1 и 2

5. Если есть оператор “+”, значит должен и быть оператор “-”, который исключает страницы с какими-то словами. Например:

“Powered by phpBB” -viagra
“Powered by phpBB” -xanax
“Powered by phpBB” -porno
“Powered by phpBB” -sex

Кстати, если вы тупо спамите по buy viagra cheap viagra, то базу такими запросами не собирайте, а то все заспамленные страницы пройдут мимо

6. Не стесняйтесь собирать домены с дефисом. для этого пользуйтесь таким запросом

“Powered by phpBB” site:com -site:*com
“Powered by phpBB” site:net -site:*net
и т.д.

7. Если нам надо собрать странички с одного сайта то можно поступить следующим образом:

Допустим у нас есть запрос: money site:digg.com.

Расширить его можно таким образом money site:www.digg.com и money inurl:digg.com, только во втором случае результаты могуть быть урезаны, поэтому не забывайте, что за отображения полного SERP-a отвечает параметр &filter=0

Как видите, собрав небольшой список уникальных признаков разных движков, и комбинируя поисковые запросы можно собрать приличную базу. Экспериментируйте!



Пост написан красиво?
Стимулируй блога прогресс:
Не стоит покупать мне пиво,
Подпишись на RSS!   

Вас также могут заинтересовать эти посты:

Добавить в закладки:     del.icio.us   google.com   moemesto.ru   bobrdobr.ru   memori.ru   rucity.com   rumarkz.ru   korica.info

Комментариев: 16

  1. Dmitry HT, 12. Ноябрь 2007, 14:08

    Последний AllSubmitter для парсинга не посоветую, т.к. парсит он по 10 результатов в выдаче, т.е. 200 - это потолок.

    ИМХО: А вот старые и ломаные версии в этом плане поудобней были.

     
  2. SEOCoding, 12. Ноябрь 2007, 22:37

    Отличный пост!

    Только не понял 6го пункта. Проверил - действительно ищет сайты с дефисом, но как так получается?
    В случае “-site:*net” минус что означает? И почему звёздочка после site.. то ли это такое правило у Гугла есть??

     
  3. Арника, 13. Ноябрь 2007, 4:28

    Полезные советы, воспользуюсь ими… Спасибо, особенно за программку

     
  4. SEO Критик, 13. Ноябрь 2007, 8:24

    Рекомендую еще почитать
    24 совета по поиску в Google

     
  5. Chiaroscuro, 13. Ноябрь 2007, 8:33

    Респект товарищ, родина тебя не забудет.

     
  6. Alex, 13. Ноябрь 2007, 13:28

    Спасибо пригодиться

     
  7. xost, 13. Ноябрь 2007, 14:29

    отлично! не поверите, но только вчера ломал голову над этой проблемой ))

     
  8. SEO Критик, 13. Ноябрь 2007, 22:28

    Почему же не поверю

     
  9. Exige, 14. Ноябрь 2007, 15:37

    А где взять старый ломанный AllSubmitter никто не подскажет?

     
  10. SEO Критик, 14. Ноябрь 2007, 18:12

    Я думаю если немножко покопаться в Google, то все найдется
    P.S. Подобные сетки говноблогов баняться оч. быстро. По стуку.

     
  11. Woman, 8. Декабрь 2007, 23:28

    Я подобную статью видела на форуме umax`а.

     
  12. Igor, 13. Декабрь 2007, 22:11

    А парсить SmartPosterom 3.4 не стоит?

     
  13. SEO Критик, 13. Декабрь 2007, 22:15

    Не знаю, не парсил. Вообще парсить лучше тем, инструментом с которым ты хорошо знаком и у тебя получается эффективно его использовать.

     
  14. igorus, 19. Январь 2008, 6:39

    здесь можно найти aiilsubmitter 4.7 crack базы
    проверенный и рабочий
    http://www.richmedia.us/post/2007/12/allsubmitter.aspx

     
  15. aNt0x, 6. Май 2008, 11:59

    Спасибо!! За статью
    П.С. Чет не открывается Ричмедиа…

     
  16. igorus, 6. Май 2008, 13:17

    да нет все открывется
    просто ремонт бывает недоступен richmedia
    кстати там же и базы выложены немного

     

Написать комментарий: