Парсим без парсера. Собираем базу без затрат.
15 ноября 2013, 00:11, posted by Zhenek | SEO методы, SEO сервисы |

1В этой статье вы узнаете о практической и полезной технической теме, которая при правильном подходе поможет вам в нелегком деле. На данный момент ситуация в поисковой выдаче довольно странная и нестабильная, но webspam как и прежде дает результаты. Вебмастеры спамят доры, сателиты и серые сайты в надежде на краткосрочный топ. Более понятная ситуация в Yahoo – там наличие ссылок все еще дает однозначный и легко предугадываемый эффект.

Сегодня поговорим о сборе базы для простановки ссылок, но без использования классических парсеров, прокси и прочих затрат. Т.е. собирать базу будем исключительно бесплатно. При этом база будет очень эффективной как в отношении пробива, так и в отношении индексации.

Для начала убедимся, что базы, которые будут собраны, действительно могут дать эффект, т.к. у многих может возникнуть сомнение в этом. Посмотрим в топ Гугла https://www.google.fr/ по запросу Acheter propecia. Конечно, можно смотреть и по виагре, но там сейчас немного другие технологии в тренде. По этому запросу в топе сидит дор (полу-сайт) на бесплатном хостинге webnode.fr. Смотрим его беки через ahrefs (для понятия сути хватит и триал версии). Видим, что беков очень много, но доменов уникальных всего 2,5K:

2

За счет них сайт находится в топе по довольно хорошему ключу на довольно хороших позициях. Подробно изучив беки, можно увидеть, что многие из них проставлены из форумов, а большинство идет с одного форума, но разных топиков.

3

Спам по форумам все также дает результаты. Но не все знают, как собрать базу форумов для спама альтернативными методами без классического парсинга Google или других ПС. Нам помогут сами спамеры и софт для поиска исходящих ссылок с сайта. Люди, которые спамят по форумам, часто используют в своих схемах перелинковку. Т.е. спамится сам дор и пару ссылок на другие форумы, где есть ссылки на дор и на другие форумы… и так по кругу. Часто встречаются классические доры на топиках форумов, на которых перелинковка тоже очень важна. Наша задача пройтись по заспамленому форуму и собрать все исходящие ссылки – часть из них будет ссылками на другие форумы, часть на доры. Начнем поэтапно, чтобы всем и все было ясно.

Для начала необходимо найти форум, который мы будем обходить на предмет поиска внешних ссылок. Форум должен быть жестко заспамленный коллегами и содержать очень много мусора. Это будет значить, что в форум можно постить, его не модерируют и там очень давно собирается коллекция исходящих ссылок на такие же полезные для нас . Возьмем какой –либо довольно редкий НЧ ключ. Например — Clozaril 1mg and nevada pharmacy. И посмотрим на выдачу Google.

4

Довольно легко находим http://vnchan.com/thread-477076.html такой топик, который содержит в себе не только ключи, но и ссылки на другие топики на других форумах. За такими ссылками мы и будем охотиться.

5

Теперь необходима программа, которая обойдет все топики на этом форуме и соберет все внешние ссылки, после чего формируется база из плохомодерируемых, но пробиваемых ресурсов. Вы можете использовать софт на свое усмотрение, но стоит посмотреть в сторону бесплатного варианта – Xenu Links. Качаете здесь http://home.snafu.de/tilman/xenulink.html и устанавливаете. Запускаете программу и идете в меню Options.

6

Здесь интересует два пункта – Parallel Threads – во сколько потоков работать (все зависит от вашего железа и загруженности системы). Maximum depth – максимальная глубина прохода, т.е. насколько внутрь сайта пойдет программа при поиске – определяйте по заспамленности и структуре форума, но обычно на 1000 вполне хватает. Это все по настройкам. Далее нажимаете на кнопку „Новый проект”, ставите урл найденного спам-топика и запускаете программу.

7

Начнется проход по форуму и сбор информации. Это займет достаточно много времени, особенно если форум сильно заспамлен. Оставляйте софт работать на ночь или используйте дополнительный компьютер или ноут под это дело. В конце вы сможете сделать экспорт всех данных и обработать их.

8

На выходе вы получите полный отчет со всеми ссылками, которые есть на этом форуме – внутренними и внешними. На этом этапе не нужно их как-либо разделять и фильтровать – дальше все получится само. Каждый из вас может использовать свой метод, чтобы привести эту базу в чистый вид пригодный для спама/создания доров.

Можно пойти по следующей схеме (опять же все на примере только бесплатных программ).

1. Оставляете только урлы, без лишних данных по статистике, которые генерирует Xenu Links. Для этого используйте редактор Notepad ++ (скачать можно здесь — http://notepad-plus-plus.org/) . Открываете полученный в процессе работы файл, нажимаете Ctrl+H. Далее выбираете опцию – Regular expression (1 — регулярное выражение), ставите в поле Find What (2 – что искать) регулярку .*$, нажимаете на кнопку Replace All (3 – заменить все).

9

Такой регуляркой софт уберет все, что идет после первого пробела, tab-a. Обратите внимание, что он там будет больше, чем обычный, поэтому копируйте его прямо с файла и допишите регуляку выше. И на выходе вы получите базу линков.

2. Следующий шаг – удалить дубли по домену. Задача легкая, для нее существует очень много решений. Можно воспользоваться утилитой ReDoubler (скачать можно на сайте автора — http://solutionfix.org/soft/doublers/ ). Запускаете, выбираете свой файл, отмечаете опцию „Сравнивать не строки, а домены” и нажимаете кнопку «Раздублить!»:

10

На выходе вы получите ссылки только с уникальных доменов.

3. Последняя и самая важная задача – отобрать из ссылок только ссылки на форумы. Т.к. в файле будут ссылки на картинки, доры и другие сайты, которые вам не нужны. Для этого необходимо сделать выборку. Делать это будет программа – KeyWordKeeper (качаете на сайте — http://newox.ru/kwk.php ). Делать необходимо выборку из урлов, а за основу выборки берете признаки форумов. Т.е. те урлы, в которых они будут – останутся. Запускаете софт и выбираете опцию – Создание выборки.

11

Добавляете необходимый файл и в поле Ключевые слова, указываете те признаки форумов, которые нужны именно вам (в зависимости от дальнейших целей и наличных инструментов). Большой список признаков можно скачать здесь.

На выходе с помощью 4-х абсолютно бесплатных программ и без использования прокси, получаете базу линков для спама с хорошим пробивом и плохой модерацией. Можно также дополнительно проверить каждый урл из этой базы на ответ сервера и отсеять те, которые дадут 404-ю ошибку. Так база получится еще более качественной.

Рассмотрим для примера еще один способ, который позволяет получать ссылки без особых затрат. Для этого воспользуемся инструментами, которые дает сам Google. А конкретно- http://www.google.com/alerts. Этот сервис позволяет получать уведомления о различных событиях в сети на почту или фид. Воспользуемся им, чтобы знать кто, когда и где проспамил форум / блог или другие ресурсы по необходимому нам кею. Заполняете все поля (вывод результатов на фид, а не на почту можно создать только с google акком):

12

1. Search query — задает запрос, т.е. признак ресурса + кей.
2. Results type – виды ресурсов для парсинга (новости, блоги) — выбираете Everything, т.е. все.
3. How often — Как часто – выбираете As-it-happens (как только случится).
4. How many – Сколько результатов – выбираете All results — все.
5. Deliver to — Куда доставлять – выбираете Feed.

И все. В результате сгенерится линк на фид, в котором будут последние новости по вашему запросу. Примерно так — http://www.google.com/alerts/feeds/06532479474629933794/16776812587253347447

13

Таким образом сам Google выполняет и собирает все в одном месте. Чтобы собрать полученные результаты, можно использовать любой rss грабер. К примеру, простенький скрипт, который можно поставить на крон и он будет постоянно обращаться к этому фиду и забирать с него все ссылки (только ссылки). Скачать скрипт можно здесь. Просто замените во второй строке адрес фида на свой и поставьте на крон. Скрипт будет обращаться к фиду и собирать все линки в файл links.txt.

Довольно простой, но интересный метод, который поможет вам в сборе ценных ресурсов, индексируемых Google в первую очередь, ведь на этот фид результаты поступают в Live – режиме и являются самыми актуальными. Из других способов чистки и фильтрации баз можно акцентировать внимание на выборке исключительно быстро посещаемых ботами страниц. Это необходимо, когда стоит цель максимально оперативно попасть в индекс – для трендовых кеев и событий. Вы можете отфильтровать как свои базы, так и те, которые собраны в результате этой статьи.

Идея заключается в том, чтобы проспамить что-то, что будет видно только ботам и записать страницы, с которых они перейдут в отдельный файл. Легче всего это сделать прозрачной картинкой-ссылкой в один пиксель, которая будет вести на скрипт, записывающий информацию откуда пришел юзер. Скачать скрипт можно здесь (скрипт примерный и взят из интернета). Просто залейте его к себе, создайте файл ref.txt и присвойте ему права на запись. Теперь, если кто-то зайдет на этот скрипт, реферер будет записан в этот файл. Проанализируйте данные за сутки после проспама и вы получите базу, которая дает результаты максимально быстро.

На этом все, надеемся, что эти простые и бесплатные шаги помогут вам в достижении топов. 🙂

Автор статьи: LoNduk.

27 комментариев
27 комментариев
  • комментарий by Подписчик блога - 15.11.2013, 02:43

    Отличная статья!

  • комментарий by Alisa - 16.11.2013, 15:06

    LoNduk — высший пилотаж, спасибо за дополнительные плюшки. Есть над чем задуматься и переработать под себя. 🙂

  • комментарий by pppaupapuauamailru - 16.11.2013, 21:58

    Была опробована программа — Xenu Links С указанными в статье настройками она прошла только ту страницу, которую ей указали. В глубину сайта не пошла!

  • комментарий by LoNduk - 18.11.2013, 08:53

    2 Подписчик блога, Alisa — спасибо
    2 pppaupapuauamailru — я не предстваляю как это. Если задана Maximum depth и на с указанной странице есть линки на другие — то это невозможно, даже при желании.
    Покажите пример?

  • комментарий by Asta - 19.11.2013, 04:12

    А под яндекс так делать котируется? Или только под гугль сказ?

  • комментарий by LoNduk - 19.11.2013, 10:10

    2 Asta — конечно котируется. Но сказ здесь только под гугль

  • комментарий by Asta - 19.11.2013, 10:36

    Спасибо, и самая головная боль — это нотпад. Он удаляет вообще всё с этой регуляркой. 🙁 Помогите……..

  • комментарий by LoNduk - 20.11.2013, 08:09

    Asta если прям вообще никак — оставь контакт я стукну обсудим в лайв режиме, где у тебя и с чем проблемы

  • комментарий by Asta - 20.11.2013, 09:51

    ася 347488284
    вк 66221207

    Делаю через скрипт на хосте, но лучше конечно через нотпад

  • комментарий by DEN - 22.11.2013, 07:40

    Подскажите, а как дальше эту базу использовать?
    Будет у нас куча сайтов, и что дальше?

  • комментарий by AlexN - 1.12.2013, 16:37

    Нотпад не хочет вообще удалять ничего с этой регуляркой. Когда ксену заканчивает сбор урлов, спрашивает делать ли репорт и открывает файл в браузере. Вот тогда урлы находятся в чистом виде.. без мусора. Но миллион ссылок не копируются полностью и происходит это с огромными тормозами.. Я уже стал собирать базу с мусором. Чем еще можно почистить? Заранее благодарен за помощь.

  • комментарий by LoNduk - 2.12.2013, 08:36

    2 DEN — это сложный вопрос, если ты не знаешь зачем, то оно наверное пока тебе и не нужно.
    2 AlexN — да все чистит нотпад. Там перед .*$ нужно поставить пробелы, но чтобы не ошибится скопируй их с любой строки файла и поставь как одно целое.
    Другие способы даге не знаю — пхп скрипт поищи или закажи.

  • комментарий by AlexN - 2.12.2013, 16:12

    Нотпад по всякому пробовал.. Даже Зенку пытался прикрутить под это дело, но он почему-то тоже не хочет чистить регуляркой. Ставлю: нужный текст начинается с хттп, после нужного текста идет пробел и самое короткое совпадение….не хочет и все…

  • комментарий by AlexN - 2.12.2013, 16:21

    Получилось нотпадом… До этого уже пытался так делать.. не получалось.. Скопировал пробелы с файла, вставил и добавил регулярку без пробелов.. Удалил как надо.. Спасибо за помощь..

  • комментарий by LoNduk - 2.12.2013, 22:23

    2 AlexN — я рад.

  • комментарий by Александр - 4.12.2013, 05:57

    В первом примере пропецию в топ вывел один форум с множеством ссылок с него. Дальше написано, для примера берем запрос Clozaril 1mg and nevada pharmacy, заходим на форум и собираем с него кучу ссылок. Зачем приведены эти два примера? Они же не связаны между собой. Во втором запросе будет много форумов разных, это должно вывести в топ? Ведь пропеция выводилась благодаря одному форуму практически.
    Или можно взять этот форум откуда много ссылок + собрать как во втором примере?
    В итоге такой способ подходит для редких запросов? Или к примеру buy xenical online тоже подойдет? (запрос не редкий, таблетка довольно редкая)
    Стоит ли текст уникальный для дора на профиле заказывать?
    Как лучше перелинковать? Если 1 форум ведет на 2 следующих, те в свою очередь тоже по 2 ссылки каждый на следующие форума дают, не побанят ли такое?

  • комментарий by Joker - 14.12.2013, 11:55

    Спасибо за столь ценную инфу особенно понравилось про фиды мега вещь не могу догнать как ваш скрипт поставить на крон помогите пожалуйста разобраться или киньте ссылку где можно разобраться. Заранее благодарю

  • комментарий by Zhenek - 10.01.2014, 06:13

    Александр, удалось найти ответы на эти вопросы? А то что-то ни ты, ни Лондак больше не отписывались в комментах.

  • комментарий by barikus - 11.01.2014, 08:17

    автору спасибо

  • комментарий by yoba - 2.02.2014, 06:45

    Огромное спасибо, очень ценная информация — за сутки напарсил базу на более 10к форумов.

  • комментарий by Den - 12.02.2014, 08:42

    >2 DEN — это сложный вопрос, если ты не знаешь зачем, то оно наверное пока тебе и не нужно.
    2 LoNduk — все же если рассказывается о чем то, то резонно привести примеры использования. Расскажите как сами используете или как другие, если знаете. Спасибо.

  • комментарий by kot - 7.04.2014, 10:10

    нафиг теперь ссылки нужны… яндекс отменяет все.

  • комментарий by Irinа - 18.04.2014, 10:07

    Говорят, что отменяют по некоторым тематикам и коммерческие, но как все будет работать теперь?
    Думаю, что все же ссылки как-то, но будут влиять.

  • комментарий by digg - 14.10.2014, 16:06

    открыл топ французский по указанной таблетке, посмотрел беки первых сайтов, одни пироги и причем тут форумы?

  • комментарий by matares - 18.11.2014, 09:52

    Система, конечно, сложная. Такой порядок действий сложно понять начинающему блогеру. Но все равно спасибо, буду продираться через этот дремучий лес. Хотя. что там Яндекс дальше придумает — не известно

  • комментарий by Sonic - 21.08.2016, 22:56

    matares Чё там понимать? Всё в картинках показано.

    По теме: еле-еле нашёл форум, пропарсил но ссыко было на выходе крайне мало, после всех действия осталось 7 ссылок и которых годных для постинга только одна и это сам форум.

  • комментарий by Igor - 2.07.2019, 12:04

    Здравствуйте. У меня скрипт не работает. В тестовый файл записывает t=j
    Где моя ошибка?
    Спасибо

Оставить комментарий

(обязательно)
(обязательно)
Введите свой email:

Разделы

Теги

Полезные сайты