Однобайтовое клонирование доменов
10 октября 2019, 10:10, posted by Zhenek | SEO методы, SEO статьи |

В наши дни никого не удивишь тем, с какой легкостью можно клонировать сайты, мегапорталы и даже сам поисковик Google. Можно скопировать контент, графику, дизайн и даже доменное имя.

Конечно, с последним утверждением я немного погорячилась, ведь не бывает двух одинаковых доменных имен и непосредственно ICANN этого не допустит! Но если подумать, то многим известна методика получения тайп-трафика (ошибка набора), а она как раз построена на регистрации схожих доменов при помощи хитрых подстановок аналогичных символов в имени сайта.

На данный момент эта технология настолько продвинулась вперёд, что было придумано внушительное количество методов однобайтовой замены литер в доменном имени.

Перечислю некоторые из самых популярных трансформаций или замен символов, которые активно используются не только для получения трафика, но и для обхода фильтрации антиспам систем в социальных сетях, поисковиках и даже файрволах (межсетевых брандмауэрах). Среди них можно выделить:

  1. Добавление — буквы добавляются в конце исходного доменного имени. Самый простой и легко выявляемый способ при беглом взгляде на URL-адрес.
  2. Бит-сквоттинг/Bitsquatting относится к регистрации доменных имен, отличающихся от настоящего домена всего на 1 бит. Определить подмену при беглом осмотре уже немного сложнее, чем в случае с «дополнением», потому что люди скорее не читают, а угадывают слова на основе первой и последней буквы, а не прочитывают каждую букву последовательно.
  3. Гомоглифы (homoglyph) — одна из двух или больше графем, знаков или глифов с формами, которые или кажутся идентичными, или не могут быть дифференцированы быстрым визуальным осмотром. Например, русская «а» и английская «a» — гомоглифы.
  4. Пропуск — определенные буквы просто удаляются из названия домена. Конечно, самый распространенный случай, когда пропускают не первую или последнюю букву в имени домена, а в середине слова, где пропущенный символ значительно сложнее заметить.
  5. Поддомен — речь идет о точке, вставленной в разные позиции в конкретном доменном имени (например, goo.gl — сервис сокращенных ссылок Google). Здесь речь идет только о том, что для создания эффективного имени сайта достаточно будет убедительно выглядящего субдомена. Подобно «добавлению», этот способ может быть более очевиден пользователю, чем другие трюки.
  6. Подмена гласных — гласные буквы в конкретном домене меняются на другие гласные. При беглом взгляде на такие домены многие подвержены принципу сканирования названия домена по начальным и последним символам, а не прочитыванию каждой буквы в слове. Если заменяемая гласная будет на первом или последнем месте, то такой вариант, скорее всего, не сработает.

Для автоматизации поиска искомых доменов по выше перечисленным маскам можно использовать следующие инструменты:

  • Инструмент командной строки dnstwist от Marcin Ulikowski. Он буквально нафарширован всеми методиками перебора вариаций доменных имен. Для использования dnstwist в вашей системе должен быть установлен интерпретатор языка Python, а также библиотеки ipwhois и GeoIP. После этого вы можете просто запустить в стандартной консоли WIN32 команду «dnstwist.py», указав имя домена, и задать нужные параметры для генерации доменных имен. Полученные результаты можно удобно сохранить в CSV-формате. Наибольшее восхищение вызывает то, что сама программа dnstwist при обнаружении в процессе генерации уже занятых доменов выводит о них подробную информацию: IP-адрес, который соответствует этому домену, его вероятное географическое местоположение. А если указать dnstwist параметр «-w», программа выполнит Whois запросы для каждого активного домена и отобразит дату создания самой записи либо её дату обновления в реестре доменных имен.
  • Приятным дополнением к dnstwist является инструмент, вновь консольное приложение URLCrazy от Andrew Horton. URLCrazy дополнительно расширяет возможности перебора к уже перечисленным пунктам ещё интересными вариациями: смещение точки, когда удаляется точка из доменного имени; сингуляризация или плюрализация — метод добавляет или удаляет «s» в конце имени домена; замена гласных — заменяются гласные в доменном имени. Установка этого приложения, как указано на  веб-сайте, требует наличия в вашей системе Ruby Rails, что легко решается доступностью этой среды для скачивания в Интернете.
  • Этот инструмент рекомендую для тех, кто не любит консольные приложения и больше предпочитает визуальные программные интерфейсы Windows, это программа — Domain Typo Finder, которую можно бесплатно скачать с сайта DomainTools. Она поддерживает почти все методы, основанные на замене букв, транспозиции, повторении и гомоглифах.

После такого затяжного подготовительного этапа давайте перейдём к реализации всей связки. Алгоритм действий прост. Все, кто читал мою статью «Индексация, минуя google webmasters tools», скорей всего, помнят об упомянутом мной процессе передачи доменов от одного регистратора другому, который ещё называется трансфером. В большинстве случаев передача домена занимает от пяти до семи дней. Временной интервал, главным образом, зависит от самого расширения домена. Как бы то ни было, но этого времени вполне предостаточно для составления списка доноров с последующей генерацией доменов с гомоглифами, выбора кандидатов, проверки их на доступность с последующей регистрацией. Сам процесс поиска доноров я опущу, так как он полностью показан в упомянутой мной статье, поэтому перейду сразу к генерации гомоглифов, для этого я воспользуюсь dnstwist. Вот мой подопытный домен, который по данным Whois на трансфере с четырнадцатого сентября 2019 года:

Запускаю стандартное окно консоли Windows 32, где прописываю следующую команду:

C:\Users\...\Desktop\dns\dnstwist.py uaemask.com

Ваше окружение может быть иным, поэтому путь к директории программы сугубо индивидуален, а вот крайние команды указывают на старт самого приложения с точным указанием доменного имени:

На скриншоте можете увидеть, как утилита нашла три тысячи шестьсот тридцать одну вариацию различных подстановок/трансформаций в доменном имени, а далее запущен сам процесс генерации итогового результата. Стоит заметить, если вы желаете сохранить отчётный листинг программы, то лучше сразу генерировать его в CSV-формат, для этого необходимо задать дополнительную команду:

dnstwist.py --format csv uaemask.com> out.csv

В противном случае результат вашего исследования, листинг доменов с гомоглифами, не будет сохранён. У меня доменных имён, именно гомоглифов, получилось не более двух тысяч пятьсот штук, поэтому я при сортировке приоритет отдаю доменам с однобайтовой опечаткой, тут логика проста: в одном и том же слове пользователи гораздо реже допускают более двух ошибок. После того как вы найдёте подходящие вариации доменов, то на следующем шаге эти имена необходимо проверить на доступность у любого доменного провайдера:

uaemɑsk.com – на момент написания статьи данное доменное имя свободно для регистрации и мне предлагают добавить его в корзину за восемь долларов восемьдесят восемь центов.

Оговорюсь сразу, что все сочные домены: Google, Instagram, Facebook и прочие топовые ресурсы буквально просканированы неоднократно, поэтому не стоит на них зря тратить время, но я уверена, в тех вертикалях, в которых вы работаете, непременно будут аппетитные домены-доноры и очень эффектные «однобайтовые клоны». Либо же поступать по моему примеру: я беру в качестве доноров домены на трансфере, далее нахожу гомоглифы, после регистрирую эти релевантные доменные имена. В результате я получаю дополнительные источники тайп-трафика.

Всем удачной охоты на однобайтовые подстановки литер в доменных именах! 🙂

Автор статьи: Alisa.

8 комментариев
8 комментариев
  • комментарий by Воyк - 11.10.2019, 11:53

    В имени домена и кириллица и латиница-буквы?? Кто-нибудь реально занимался этим? Если да, то каков выхлоп?

  • комментарий by Alisa - 12.10.2019, 02:08

    Да в имени домена и кириллица и латиница.

    Надо учитывать такой фактор, если выбранный домен-донор использует протокол HTTPS, то на вашем домене клоне надо зафильтровать трафик с CHROME — этот браузер будет пользователям показывать, что они переходят на подозрительный домен, переходы пользователей с Мозиллы и мобильных устройств проходят нормально.

    Гемблинг, крипта, дейтинг — трафик есть и лиды тоже.

  • комментарий by Boyka - 12.10.2019, 09:13

    Так а смысл если в имени домена и кириллица и латиница.
    Юзер же при вводе в браузере не будет менять язык.
    Для фейка это ввидимо, а для трафа ну вот браузер историю записывает при вводе автоподстановка идет

  • комментарий by Alex - 12.10.2019, 10:04

    Не понятен такой момент, если это type-in трафик, неужели есть люди которые будут набирать google.com используя русский язык для двойного ‘o’? Или это все не так работает?

  • комментарий by gene - 14.10.2019, 07:08

    Не совсем понял, как пользователь может опечататься введя кириллическую а в наборе латинских символов? Ну или вот эту «ɑ»?

  • комментарий by Alisa - 14.10.2019, 14:40

    Boyka — менять раскладку согласна не будут, а вот если не та раскладка на клавиатуре перед тем, как задать нужный домен, а пользователь работал в другом приложении на ином языке — не на латинице и таких моментов очень много…
    Относительно: «при вводе автоподстановка идет» — очень много доменов блокируются в том же гемблинге, крипте и дейтинге, поэтому там даже основные домены, часто переезжают и при этом используют классические подстановки из цифр, а что мешает сделать гомоглифы этих доменов и получить немного трафа 🙂

    Alex, gene — давайте немного расширим ваши границы мировозрения, ведь к примеру на постсоветском пространстве образовалось 15 стран, где к примеру пользователи из Средней Азии используют раскладку не только латиницу и кириллицу, но и вдобавок раскладку своего родного языка: казахский, киргизский, грузинский и т.д.
    А вот если взять ближе к Европе, то тут ситуация немного иначе русскоговорящие используют клавиатуру на латинице и пишут русские сообщения на латинском

    было — русские сообщения — стало — russkiye soobshcheniya na latinskom

    к этим странам относятся Литва, Латвия, Эстония и даже Германия, где много переселенцев, но они вынуждены использовать латиницу и таких примеров очень много.

    Но самая соль, помимо прямых опечаток, гомоглифы легко использовать в социальной инженерии, когда схожие домены используются для рекламы.

  • комментарий by gene - 17.10.2019, 05:42

    Alisa, я в Казахстане живу. Оно не так работает. Казахские буквы на текущий момент, находятся на цифрах сверху. Казахская раскладка дублируют русскую плюс эти буквы сверху. Когда перейдут на латиницу, появятся спец-буквы с «ударениями» (как обычно идиотский маразм), то есть раскладка будет дублировать английскую плюс несколько спец-букв. Наверное снова сверху на цифры налепят, хз.

    В кириллическом алфавите казахского, например, есть буква ә — мягкая а. На вид ее перепутать сложно. Но допустим, пользователь набирает кириллический домен альфабанк.рф. Опечататься можно только так: әльфәбанк.рф — но: 1) произносится совсем иначе, 2) буква ә находится на клавише 2, а обычна а на клавише f. Не очень представляю как можно так сильно ошибиться: выбрать не ту кнопку и думать, что название произносится совсем иначе.
    Есть подозрение, что другие алфавиты на основе латиницы и кириллицы на клавиатуре выглядят примерно так же. В немецком такая же история. допустим сайт strasse.de, в немецком можно написать straße — оба варианты правильные, но один как бы слегка устаревший. Буква ß находится дефиса, который справа от 0 в верхней строчке, две s — на другом конце клавиатуры, но опечатка вполне реальная, так действительно пишется и так и эдак. Но, есть подозрение, что люди купили оба домена сразу. Если нет, то другие варианты почти невозможны. Хз можно ли вообще в зоне .de такие буквы ставить, но можете попробовать поискать домены без спецбукв ä, ö, ü (ubermensch.de например) и попробовать зарегистрировать правильное написание (übermensch.de). таких доменов может набраться довольно много. Но это не опечатка, а именно правильное написание. То есть концепция обратна той, что вы предлагаете в статье. Может быть даже стоит дополнить статью. Конечно, предварительно проверив, что такие домены сразу же не были зарегистрированы вместе с «неправльным» написанием. Там еще есть нюансы (корявое, неправильное, но допустимое написание добавлять e после a, o, u для обозначение букв ä, ö, ü — uebermensch.de — но такое написание обычно встречается в старинных документах, когда в печатных машинках не было нужных букв. Хотя и сейчас некоторые пишут названия аккаунтов на всяких не очень хорошо сделанных форумах в таком формате. Думаю, что знакомые с другими европейскими языками тоже что-то такое смогут подсказать. С кириллическими — хз, они очень мало кому нужны. есть же не только .рф, но зона .қаз — как много людей вводят названия доменов в ней? примерно три с половиной человека, которые купили себе эти домены.

  • комментарий by Alisa - 17.10.2019, 09:54

    gene — спасибо вам за развёрнутый ответ, но вы упускаете один момент, относительно Казахстана, у меня есть партнер и он мне показывал, что есть клавиатура которая идет так как вы описали, буквы казахского алфавита на цифрах, а вот к примеру корпоративные сборки ПК от Hewlett-Packard
    в другом варианте, когда буквы казахского алфавита непосредственно расположены на одноименных буквах русской и латинской раскладки, стоит заметить что такие сборки ПК были в продаже не только в Казахстане…

    Я ничего этим не хочу сказать, как только одно нет жестких стандартов, каждый производитель делает так, как ему удобно, а сами пользователи не очень спешат расставаться со своей привычной клавиатурой, как вариант тот же Казахстан, который совсем недавно отказался от кириллицы в пользу латиницы. И вы думаете, что сразу все стали в одночасье менять клавиатуры…

    Следующий момент мне уже выше писали относительно автодополнения, так вот сейчас большой перекос трафика в сторону мобильного, а не десктопного, так же я уже сказала, что всего-то надо проявить минимум социнженеринга. Например все кто едет в общественном транспорте, метро, электричках, находятся в движение, а задумаемся на минутку какие обычно у них открыты мессенджеры, ТОП будет скорей всего за WhatsApp, а все кто им пользуется регулярно, знают что автодополнение там реализовано очень небрежно и количество опечаток прям зашкаливает.
    Но конечно вы опять вправе возразить, где Ватцап и где ГуглХром.

    Я дала только направление, а вот точек входа для реализации сейчас предостаточно, гораздо больше чем было раньше по тайп-трафику.

    Относительно регистрации доменов я вообще не упомянала зону КЗ, как основную, ведь помимо неё предостаточно зоны COM, которая гораздо востребованна. Да и не одним Казахстаном и Германией Интернет полнится, вот к примеру список языковых групп, где есть точки входа в данную тематику,
    где стандартная латиница очень ограничена в своих возможностях – детальнее можно ознакомиться с полным списком, вот на этой странице Википедии en.wikipedia.org/wiki/Internationalized_country_code_top-level_domain

Оставить комментарий

(обязательно)
(обязательно)
Введите свой email:

Разделы

Теги

Полезные сайты