Как напарсить больше 1000 ссылок в Google
Как напарсить больше 1000 ссылок в Google - практические советы.
Итак, в процессе работы или обучения перед многими возникает такой вопрос: “Google ведь отдает всего 1000 ссылок, как напарсить больше?”
1. Пользуйтесь хорошим парсером - из бесплатно распространяемых десктопных автопарсеров пока мне больше всех нравиться AGGRESS парсер (скачать можно здесь). Из ручных - AllSubmitter.
2. Изучите операторы Google и других ПС т.к. возможности своих рабочих инструментов нужно знать досконально. Для этого рекомендую почитать интересную, пускай и 2004 года, книгу Google Hacks
Теперь перейдем к конкретике:
1. Используйте поиск по разным доменным зонам. Например:
“Powered by phpBB” site:com
“Powered by phpBB” site:net
“Powered by phpBB” site:org
“Powered by phpBB” site:biz
“Powered by phpBB” site:de
“Powered by phpBB” site:info
“Powered by phpBB” site:nu
“Powered by phpBB” site:ws
“Powered by phpBB” site:en
“Powered by phpBB” site:.nl
“Powered by phpBB” site:it
“Powered by phpBB” site:us
В идеале для каждого такого запроса мы получим по 1000 результатов из разных доменных зон
2. Используйте оператор “+”. Например, мы можем сделать такие поисковые запросы:
“Powered by phpBB” +bank
“Powered by phpBB” +ball
“Powered by phpBB” +money
“Powered by phpBB” +jewel
И в результате получим страницы содержащие наш запрос и указанное слово. Специально для подобных целей я собрал в табличку общеупотребительные слова английского языка. Скачать можно здесь Естественно в процессе работы каждый может расширить этот документ в соответствии со своими потребностями 
3. Если уж срать по форумам, то лучше срать по тематическим - больше шансов, что пост выживет и для Google тематический линк представляет большее значение. Значит составляем список тематических кеев для нашей странички/сайта. Быстро это можно сделать с помощью Google Keyword Tool Натравите его на вашу страничку и скачайте полученный *.csv файл. Кстати, тем кто еще не знает про Google LSI, рекомендую прочитать полезный пост у Незамутненного.
4. Более качественную выдачу дают запросы с операторами inurl: и allinurl:. Используйте их комбинируя с советами из пунктов 1 и 2
5. Если есть оператор “+”, значит должен и быть оператор “-”, который исключает страницы с какими-то словами. Например:
“Powered by phpBB” -viagra
“Powered by phpBB” -xanax
“Powered by phpBB” -porno
“Powered by phpBB” -sex
Кстати, если вы тупо спамите по buy viagra cheap viagra, то базу такими запросами не собирайте, а то все заспамленные страницы пройдут мимо 
6. Не стесняйтесь собирать домены с дефисом. для этого пользуйтесь таким запросом
“Powered by phpBB” site:com -site:*com
“Powered by phpBB” site:net -site:*net
и т.д.
7. Если нам надо собрать странички с одного сайта то можно поступить следующим образом:
Допустим у нас есть запрос: money site:digg.com.
Расширить его можно таким образом money site:www.digg.com и money inurl:digg.com, только во втором случае результаты могуть быть урезаны, поэтому не забывайте, что за отображения полного SERP-a отвечает параметр &filter=0
Как видите, собрав небольшой список уникальных признаков разных движков, и комбинируя поисковые запросы можно собрать приличную базу. Экспериментируйте! 

  
Читать в ЖЖ
Последний AllSubmitter для парсинга не посоветую, т.к. парсит он по 10 результатов в выдаче, т.е. 200 - это потолок.
ИМХО: А вот старые и ломаные версии в этом плане поудобней были.
Отличный пост!
Только не понял 6го пункта. Проверил - действительно ищет сайты с дефисом, но как так получается?
В случае “-site:*net” минус что означает? И почему звёздочка после site.. то ли это такое правило у Гугла есть??
Полезные советы, воспользуюсь ими… Спасибо, особенно за программку
Рекомендую еще почитать
24 совета по поиску в Google
Респект товарищ, родина тебя не забудет.
Спасибо пригодиться
отлично! не поверите, но только вчера ломал голову над этой проблемой ))
Почему же не поверю
А где взять старый ломанный AllSubmitter никто не подскажет?
Я думаю если немножко покопаться в Google, то все найдется
P.S. Подобные сетки говноблогов баняться оч. быстро. По стуку.
Я подобную статью видела на форуме umax`а.
А парсить SmartPosterom 3.4 не стоит?
Не знаю, не парсил. Вообще парсить лучше тем, инструментом с которым ты хорошо знаком и у тебя получается эффективно его использовать.
здесь можно найти aiilsubmitter 4.7 crack базы
проверенный и рабочий
http://www.richmedia.us/post/2007/12/allsubmitter.aspx
Спасибо!! За статью
П.С. Чет не открывается Ричмедиа…
да нет все открывется
richmedia
просто ремонт бывает недоступен
кстати там же и базы выложены немного
Блин, полезная инфа, однако
Нечасто так все пережевывают 