В этой статье вы узнаете о практической и полезной технической теме, которая при правильном подходе поможет вам в нелегком деле. На данный момент ситуация в поисковой выдаче довольно странная и нестабильная, но webspam как и прежде дает результаты. Вебмастеры спамят доры, сателиты и серые сайты в надежде на краткосрочный топ. Более понятная ситуация в Yahoo – там наличие ссылок все еще дает однозначный и легко предугадываемый эффект.
Сегодня поговорим о сборе базы для простановки ссылок, но без использования классических парсеров, прокси и прочих затрат. Т.е. собирать базу будем исключительно бесплатно. При этом база будет очень эффективной как в отношении пробива, так и в отношении индексации.
Для начала убедимся, что базы, которые будут собраны, действительно могут дать эффект, т.к. у многих может возникнуть сомнение в этом. Посмотрим в топ Гугла https://www.google.fr/ по запросу Acheter propecia. Конечно, можно смотреть и по виагре, но там сейчас немного другие технологии в тренде. По этому запросу в топе сидит дор (полу-сайт) на бесплатном хостинге webnode.fr. Смотрим его беки через ahrefs (для понятия сути хватит и триал версии). Видим, что беков очень много, но доменов уникальных всего 2,5K:
За счет них сайт находится в топе по довольно хорошему ключу на довольно хороших позициях. Подробно изучив беки, можно увидеть, что многие из них проставлены из форумов, а большинство идет с одного форума, но разных топиков.
Спам по форумам все также дает результаты. Но не все знают, как собрать базу форумов для спама альтернативными методами без классического парсинга Google или других ПС. Нам помогут сами спамеры и софт для поиска исходящих ссылок с сайта. Люди, которые спамят по форумам, часто используют в своих схемах перелинковку. Т.е. спамится сам дор и пару ссылок на другие форумы, где есть ссылки на дор и на другие форумы… и так по кругу. Часто встречаются классические доры на топиках форумов, на которых перелинковка тоже очень важна. Наша задача пройтись по заспамленому форуму и собрать все исходящие ссылки – часть из них будет ссылками на другие форумы, часть на доры. Начнем поэтапно, чтобы всем и все было ясно.
Для начала необходимо найти форум, который мы будем обходить на предмет поиска внешних ссылок. Форум должен быть жестко заспамленный коллегами и содержать очень много мусора. Это будет значить, что в форум можно постить, его не модерируют и там очень давно собирается коллекция исходящих ссылок на такие же полезные для нас ресурсы. Возьмем какой –либо довольно редкий НЧ ключ. Например — Clozaril 1mg and nevada pharmacy. И посмотрим на выдачу Google.
Довольно легко находим http://vnchan.com/thread-477076.html такой топик, который содержит в себе не только ключи, но и ссылки на другие топики на других форумах. За такими ссылками мы и будем охотиться.
Теперь необходима программа, которая обойдет все топики на этом форуме и соберет все внешние ссылки, после чего формируется база из плохомодерируемых, но пробиваемых ресурсов. Вы можете использовать софт на свое усмотрение, но стоит посмотреть в сторону бесплатного варианта – Xenu Links. Качаете здесь http://home.snafu.de/tilman/xenulink.html и устанавливаете. Запускаете программу и идете в меню Options.
Здесь интересует два пункта – Parallel Threads – во сколько потоков работать (все зависит от вашего железа и загруженности системы). Maximum depth – максимальная глубина прохода, т.е. насколько внутрь сайта пойдет программа при поиске – определяйте по заспамленности и структуре форума, но обычно на 1000 вполне хватает. Это все по настройкам. Далее нажимаете на кнопку „Новый проект”, ставите урл найденного спам-топика и запускаете программу.
Начнется проход по форуму и сбор информации. Это займет достаточно много времени, особенно если форум сильно заспамлен. Оставляйте софт работать на ночь или используйте дополнительный компьютер или ноут под это дело. В конце вы сможете сделать экспорт всех данных и обработать их.
На выходе вы получите полный отчет со всеми ссылками, которые есть на этом форуме – внутренними и внешними. На этом этапе не нужно их как-либо разделять и фильтровать – дальше все получится само. Каждый из вас может использовать свой метод, чтобы привести эту базу в чистый вид пригодный для спама/создания доров.
Можно пойти по следующей схеме (опять же все на примере только бесплатных программ).
1. Оставляете только урлы, без лишних данных по статистике, которые генерирует Xenu Links. Для этого используйте редактор Notepad ++ (скачать можно здесь — http://notepad-plus-plus.org/) . Открываете полученный в процессе работы файл, нажимаете Ctrl+H. Далее выбираете опцию – Regular expression (1 — регулярное выражение), ставите в поле Find What (2 – что искать) регулярку .*$, нажимаете на кнопку Replace All (3 – заменить все).
Такой регуляркой софт уберет все, что идет после первого пробела, tab-a. Обратите внимание, что он там будет больше, чем обычный, поэтому копируйте его прямо с файла и допишите регуляку выше. И на выходе вы получите базу линков.
2. Следующий шаг – удалить дубли по домену. Задача легкая, для нее существует очень много решений. Можно воспользоваться утилитой ReDoubler (скачать можно на сайте автора — http://solutionfix.org/soft/doublers/ ). Запускаете, выбираете свой файл, отмечаете опцию „Сравнивать не строки, а домены” и нажимаете кнопку «Раздублить!»:
На выходе вы получите ссылки только с уникальных доменов.
3. Последняя и самая важная задача – отобрать из ссылок только ссылки на форумы. Т.к. в файле будут ссылки на картинки, доры и другие сайты, которые вам не нужны. Для этого необходимо сделать выборку. Делать это будет программа – KeyWordKeeper (качаете на сайте — http://newox.ru/kwk.php ). Делать необходимо выборку из урлов, а за основу выборки берете признаки форумов. Т.е. те урлы, в которых они будут – останутся. Запускаете софт и выбираете опцию – Создание выборки.
Добавляете необходимый файл и в поле Ключевые слова, указываете те признаки форумов, которые нужны именно вам (в зависимости от дальнейших целей и наличных инструментов). Большой список признаков можно скачать здесь.
На выходе с помощью 4-х абсолютно бесплатных программ и без использования прокси, получаете базу линков для спама с хорошим пробивом и плохой модерацией. Можно также дополнительно проверить каждый урл из этой базы на ответ сервера и отсеять те, которые дадут 404-ю ошибку. Так база получится еще более качественной.
Рассмотрим для примера еще один способ, который позволяет получать ссылки без особых затрат. Для этого воспользуемся инструментами, которые дает сам Google. А конкретно- http://www.google.com/alerts. Этот сервис позволяет получать уведомления о различных событиях в сети на почту или фид. Воспользуемся им, чтобы знать кто, когда и где проспамил форум / блог или другие ресурсы по необходимому нам кею. Заполняете все поля (вывод результатов на фид, а не на почту можно создать только с google акком):
1. Search query — задает запрос, т.е. признак ресурса + кей.
2. Results type – виды ресурсов для парсинга (новости, блоги) — выбираете Everything, т.е. все.
3. How often — Как часто – выбираете As-it-happens (как только случится).
4. How many – Сколько результатов – выбираете All results — все.
5. Deliver to — Куда доставлять – выбираете Feed.
И все. В результате сгенерится линк на фид, в котором будут последние новости по вашему запросу. Примерно так — http://www.google.com/alerts/feeds/06532479474629933794/16776812587253347447
Таким образом сам Google выполняет парсинг и собирает все в одном месте. Чтобы собрать полученные результаты, можно использовать любой rss грабер. К примеру, простенький скрипт, который можно поставить на крон и он будет постоянно обращаться к этому фиду и забирать с него все ссылки (только ссылки). Скачать скрипт можно здесь. Просто замените во второй строке адрес фида на свой и поставьте на крон. Скрипт будет обращаться к фиду и собирать все линки в файл links.txt.
Довольно простой, но интересный метод, который поможет вам в сборе ценных ресурсов, индексируемых Google в первую очередь, ведь на этот фид результаты поступают в Live – режиме и являются самыми актуальными. Из других способов чистки и фильтрации баз можно акцентировать внимание на выборке исключительно быстро посещаемых ботами страниц. Это необходимо, когда стоит цель максимально оперативно попасть в индекс – для трендовых кеев и событий. Вы можете отфильтровать как свои базы, так и те, которые собраны в результате этой статьи.
Идея заключается в том, чтобы проспамить что-то, что будет видно только ботам и записать страницы, с которых они перейдут в отдельный файл. Легче всего это сделать прозрачной картинкой-ссылкой в один пиксель, которая будет вести на скрипт, записывающий информацию откуда пришел юзер. Скачать скрипт можно здесь (скрипт примерный и взят из интернета). Просто залейте его к себе, создайте файл ref.txt и присвойте ему права на запись. Теперь, если кто-то зайдет на этот скрипт, реферер будет записан в этот файл. Проанализируйте данные за сутки после проспама и вы получите базу, которая дает результаты максимально быстро.
На этом все, надеемся, что эти простые и бесплатные шаги помогут вам в достижении топов. 🙂
Автор статьи: LoNduk.