Получаем уникальный контент из звука
9 ноября 2011, 00:11, posted by Zhenek | SEO методы, SEO статьи |

Приветствую, читатели RXPBlog’а. В своей новой статье я хотел бы поговорить о такой насущной теме, как добыча уникального контента. Где обычно добываются тексты?

Заказывается рерайт, копирайт, нарушители правил используют скан, особо ленивые синомайз, лихие ребята ищут ещё не проиндексированные сайты и парсят оттуда. Но мы подойдём к решению проблемы из-за угла, я расскажу Вам о самом необычном способе добычи контента. Для начала пройдёмся по контенту в общем.

Все знают, что уникальный благотворно влияет на индексацию и ранжирование сайта в серпе. Рерайт и копирайт самые легальные и полезные способы, но и самые дорогие. В принципе, я не считаю, что на этом стоит заострять внимание, ибо всё настолько просто, что лишь создаст лишние буквы в статье. Советую зайти на серч, обширный выбор рерайтеров и хорошее качество.

Гораздо интереснее обстоят дела со сканом. Книги сканировать уже нет смысла, всё давно отсканировано и выложено. Сканировать можно журналы. Хотя, зачем их сканировать, если кто-то уже сделал это за нас и нам останется только вытащить текст. Журналы качаем на http://journal-plaza.net/, http://jurnalik.ru/ и им подобных порталов, коих в Интернете более чем достаточно. Но здесь тоже есть свои нюансы.

Надо либо качать самые свежие журналы, которые ещё не успели спарсить другие, либо искать редкие журналы. Я предпочитаю второе, потому что в первом случае всё дело в скорости. Новые сайты на свежем скане не поднять, т.к. время, за которое обычно из вышедшего журнала парсятся и выкладываются тексты идёт на часы. Нет, конечно через 2-4 часа после выхода журнала в выдаче ещё не будет текстов из него, но через 1-2 дня точно. Поэтому такой способ подходит только для уже готовых и хорошо индексируемых сайтов. Другое дело — редкие журналы. Я находил десятки выпусков редких журналов, которые даже и близко к выдаче не стояли. Такой контент остаётся уникальным практически вечно и хорошо подходит для подъёма новых сайтов.

Кратко опишу процесс добычи такого контента. Скачиваем журнал, который собираемся спарсить. Обычно они идут в формате .pdf. Для вытаскивания текста нам потребуется программа ABBYY Finereader. Я использую версию ABBYY Finereader 10.0.102.109, найти на торренте уже крякнутый вариант не составит труда. Версии ниже десятой использовать не советую, т.к. значительно страдает скорость процесса и качество получаемого текста. Десятка работает быстро и выдаёт текст практически без ошибок, подойдёт для любого СДЛ. После того, как имеем текст, нужно проверить его на уникальность. Под эти нужды я использую Advego Plagiatus. На сайте программы можно скачать последнюю версию, она заметно быстрее предыдущих. Однако я бы посоветовал приобрести также и версию 1.1.0.49, она значительно стабильнее всех вышедших после неё. Существуют также и другие утилиты, такие как «etxt антиплагиат» и «miratools», но я отдаю предпочтение Адвего, потому как он находит плагиат наиболее полно. Вот собственно и всё, что я хотел рассказать о стандартных способах. Вещи по сути известные и не требуют к себе особого внимания.

Если гора не идёт к Магомеду, то Магомед идёт к горе. Если тексты не идут к нам, то мы подойдём к текстам. Мы будем искать контент для ГС и текстовок под доры. Кто-то делает их на копипасте, кто-то на уникальном тексте. Дело вкуса. Под текстовки, если они нужны уникальные, как правило, используют синомайз. Дёшево, сердито и в половине случаев нечитаемо. Откуда ещё можно получить текст? Включаем фантазию и логику, не всё записывается на бумагу, существует ведь ещё и устная речь. А это просто кладезь уникального контента, тонны слов пропадают, так и не успев быть записанными. Не страшно, это можно исправить. Качаем демо-программу WaveToText по ссылке http://narod.ru/disk/28545455001/WaveToTextSetup.exe.html. Полную или крякнутую версию можно найти на торрентах, например на рутрекере. Предоставленная по ссылке версия исключительно для теста некоторых возможностей.

Вот краткое её описание:
Better Wave To Text is an English speech recognition-based dictation pad that has a wav to text converter.
The dictation pad lets you convert your voice to text in real-time, while the program’s wizard enables you to convert your Windows Audio WAV files (speech recorded) offline.
This speech utility is probably the most high speed way to convert speech to text, you don’t need to be conscious of what the computer is going to write, you also don’t miss a word as its stored in a wav file.
You may then high speed edit the converted text using a special editor which plays back every word which you can mark for editing purposes.
In addition, the text can be searched and easily cut, copied, and pasted into any application.

Устанавливаем, нужный нам экзешник находится в этой папке:

 

Программа читает файлы только в формате .wav, соответственно нам нужен конвертер, при помощи которого мы сможем переводить любые звуковые файлы в нужный нам аудиоформат. Я использую Aiseesoft Total Video Converter 6, погуглив, Вы легко найдёте крякнутую версию программы. Не гуглив, можно скачать ту же, что использую я http://rutracker.org/forum/viewtopic.php?t=3516415 Можно использовать, конечно, любой другой конвертер, однако я, перепробовав много вариантов остановился всё таки на этом. Скорость конверта и количество форматов радуют.

Аудиофайлом может быть что угодно. Будь то аудиокнига, песня, радиоэфир или дорожка из под целого фильма. Единственное, чем чище аудиодорога, тем читабельнее будет текст на выходе. Всё-таки его делает программа, вероятность ошибки или вставки не того слова достаточно велика. Получается механический текст, который достаточно трудно читаем. Для текстовок и ГС, подобные уникальные буквы сойдут на ура. Программа WaveToText работает только с английскими текстами. Для работы в русском сегменте рынка можно попробовать использовать программу «Горыныч». Лично я с ней не разобрался, ибо глюченная страшно.

Пока что тексты, получаемые таким методом схожи с синомайзом, но я считаю, что это идея для будущего. Программы развиваются постоянно, и возможно скоро они смогут распознавать произнесенные слова без единой ошибки. Я вижу в таком способе перспективу, не отрицаю и того, что в будущем многие тексты для СДЛ будут получаться именно таким способом, ведь из устной речи можно вытащить очень много интересного.

Побольше вам уникального контента, высоких позиций в выдаче и хороших продаж! Не забывайте искать новые, на первый взгляд безбашенные способы и делиться ими здесь, на блоге.

Автор статьи: The_Rock.

50 комментариев
50 комментариев
  • комментарий by dulat - 9.11.2011, 06:39

    Отличная тема! Автору респект.
    Где можно поискать аудио файлы определенной тематики?

  • комментарий by Humam - 9.11.2011, 10:43

    Круто было бы на русском найти подобную программу!
    ТЫ не знаешь случайно, есть ли такая?

  • комментарий by Tikov - 9.11.2011, 11:25

    Отличная тема. Помимо этого есть еще одна софтинка для iPad, качество получше получается. Название, к сожалению, не могу вспомнить. Если вспомню то выложу.

  • комментарий by The_Rock - 9.11.2011, 19:02

    dulat ищите аудиокниги определённых тематик. Видео где кто-то про что-то рассказывает. Например на youtube много роликов на разные тематики, взять какой-нибудь где рассказывают, например, об мерседесах или печеньках.
    Humam для русской речи есть программа Горыныч, я упомянул в статье. Но программа оставляет желать лучшего. Можно напарсить у гугле что-нибудь по запросу «распознавание речи», я просто привёл в пример конкретную программу. Тут важнее сама идея ) Опять же гугл тоже сюда лезет http://www.digit.ru/internet/20110415/381608370.html , но пока что на уровне распознавания команд, а не записи текста. Перспектива роста есть.
    Tikov вы вероятно имеете ввиду Dragon Dictation. http://www.pro-ipad.ru/dragon-dictation-raspoznavanie-rechi-na-ipad/

  • комментарий by intourist - 10.11.2011, 13:20

    классная идея, спасибо! 🙂

  • комментарий by klosur - 10.11.2011, 14:38

    Отличный способ добычи контента. технологии растут на глазах мы о таком раньше и мечтать не могли

  • комментарий by LoNduk - 10.11.2011, 15:26

    Молодец. Красиво. Тонко. Четко!

  • комментарий by dulat - 10.11.2011, 17:03

    The_Rock спасибо!

  • комментарий by lalala - 10.11.2011, 23:26

    а стоит ли оно затраченного времени?
    копирайт индусы пишут по баксу за 1к, причем инглиш у них хороший, и текст заточен под кеи какие скажешь

    ну, 10к текста ты за час напарсил, и че, 10$ за час «заработал»? круто конечно))))

  • комментарий by Mal - 10.11.2011, 23:42

    Такие программы дают более-менее читабельный текс, если их настраивать под конкретный голос. Но соглашусь, что в этом может быть будущее уникального контента.

    А сегодня, по-моемому, для ГС вполне достаточно сгенерированного или переведенного текста.

  • комментарий by The_Rock - 11.11.2011, 00:32

    lalala — а почему нет? Можно и копирайт заказывать, я же не запрещаю. Я как вариант даю, и как хорошую перспективу. Не нравится, не стоит юзать. Я не жду, чтобы подобную идею отнесли на лавры и ходили вокруг неё. Пока что пинайте, посмотрим что будет через пару лет )) Может ещё и вспомните мою статью, когда будете зачитывать контент на айпаде для своих сайтов ))

  • комментарий by Bizon - 11.11.2011, 08:04

    Ха, да в пору на эту тему корефееям проснутся, а то опять фигли-мигли станет статьёй месяца. Удивляют завсегдатаи The_Rock, которые то и дело только льстят, а вот на практике где все сайты окажутся даже не через два года, а через две недели — в Ж0П3. В силу того что копированный контент гуглоботом через переводчики на ура уже сейчас распознает, а этот кривой копипаст как семечки переварит и в отстой. Все звуки пишутся с текста, а этот текст уже по идее везде засвечен — авторами, сама прога Advego Plagiatus не раз общественностью объявлялась отстойной, так как сам ресурс разработавший её не раз кидал авторов-копирайтеров, об этом куча была жалоб в арбитраж Вебмани. И это только цветочки, поэтому автор засвети хоть один ресурс с контентом из топа по данной технологии. Более того для хорошего качественного опознования нужны продвинутые звуковые движки, они стоят не мало — ведь история берёт начало с того чтоб инвалиды без рук могли вбивать текст на компьютере при помощи речи, но в силу сложности устройства голосовых связок и воспроизведения речи наука пока далека от этого, а так любой инвалид мог кучу контента наговаривать, адаптируя его в оригинальный контент — и их труд был бы ещё дешевле, чем индусов. Тем более что так мелко плавать, брать всё с сети, можно тогда увеличить размах и подключить сюда радио, ТВ, где звукового сопровождения мегатонны?

  • комментарий by Bizon - 11.11.2011, 08:12

    Откуда так много знаю — сам год назад делал такое и не прёт, целая куча геморроя :(((
    Надо качать кучу контента, напрягать железо раз, попутно конвертируем — вновь напрягаем железо, при это нужны файлы от 100 и более мегабайт, а то текстовки будет не более 20-30 строк, далее проверяем что получилось на уникальность — вновь напряги по железу, ну и взвесив всё это — получим что это не рентабельно, так как контент оставляет желать лучшего и вообще не дотягивает до уровня ручного, лишь только для ГС 🙁

  • комментарий by The_Rock - 11.11.2011, 14:06

    Bizon — каждое мнение имеет право на существование. В статье написано, что текст получается на выходе из программы не лучшего вида? Написано.
    То что нужно конвертировать и напрягать железо написано? Написано.
    Насчёт размера, примерно из 30 мб аудиокниги получается 15-20к текста.
    Насчёт плагиатуса, определить уникальность точно невозможно, среди конкурентов плагиатус работает лучше остальных.

  • комментарий by Bizon - 11.11.2011, 17:14

    The_Rock — ok, ну только в глушь не уходи дай реальный рабочий сайт??? С этим как — туго что-ли…

  • комментарий by The_Rock - 11.11.2011, 18:58

    Bizon — не сайт. На выходе из этой программы не получается контента, достаточно приличного для сайта. Это текстовка и я об этом написал. Айпада у меня нету, поэтому ихний софт затестировать не могу. Что хочешь чтобы я показал? Дор? Так это и сам можешь на рб или джако сделать за пару минут. Нормального сайта нет, топ не захвачен, туго. Но разве я писал о захвате топа? Я писал о добыче ТЕКСТОВКИ для ГС и доров. Уникальный текст найден? Найден. Задача выполнена? Выполнена. Где и как использовать потом такой текст, дело каждого. Соглашусь с комментарием, что сейчас проще использовать генерацию и синомайз, но у этих направлений нет перспективы, а над распознаванием голоса работают постоянно. Может я просто написал статью раньше времени и ещё невышедшего крутого софта? Ну тогда извини, пока что есть только то что есть.

  • комментарий by Тoлян - 13.11.2011, 08:21

    У меня свои, другие методы получения уникального контента. То чсто предлогает автор — достойно проверить и попробовать. Хотя сильно сложно как по мне

  • комментарий by Даниил - 13.11.2011, 09:09

    У гугла распознавание речи работает куда лучше и при том поддерживается русский язык. На хабре существуют исходники для отправки .wav файлов на рекогнайз в гугл, в целом даже начинающий программист на шарпе сможет написать такую программу.
    PS уже думал об этом 🙂

  • комментарий by The_Rock - 13.11.2011, 21:19

    Тoлян — пока что сложно (;
    Даниил — я же говорю, возможностей много, главное развить идею.

  • комментарий by kovad - 15.11.2011, 14:15

    Можно, конечно и взять чужой текст, но зачем загаживать сайт? Раз-два попадёшся и потом уник будет месяцами вне индекса. А если лень самим писать, заливайте страницы новостями.

  • комментарий by The_Rock - 16.11.2011, 10:26

    kovad не совсем понял вас. Имеете ввиду что поисковик распознает скан и применит санкции? Это вряд ли, если никто не стукнет. Смотря конечно как постить. Если сплошняком, не разделяя на статьи и без чистки текста после распознавания, тогда есть такая вероятность.

  • комментарий by Дмитpий - 17.11.2011, 21:55

    lalala, где найти тех индусов которые копирайт на инглише по 1$ пишут?

  • комментарий by Sоrоkin Vlаdimir - 19.11.2011, 21:58

    Да, это немного мудрено. Мне больше понравился другой метод. Есть литература, сканирование которой невозможно из-за сложного переплета, либо из-за габаритов. Берешь её на время домой и диктуешь хорошему «наборщику» текстов. Либо, если взять невозможно (читальные залы), читаешь «вслух» на мобилу или диктофон. И здесь уже встанет другая проблема – как уберечь свой контент?!

  • комментарий by The_Rock - 20.11.2011, 14:49

    Sоrоkin Vlаdimir разве есть способ полностью защититься от кражи контента? Нету. Можно мудрить с кодом, ставить ссылки в виде точек, но кому надо, всё равно заберёт своё. Главное к тому времени уже выжать профит )

  • комментарий by Sоrokin Vlаdimir - 20.11.2011, 17:50

    Да, к сожалению это так. На графику еще можно водяные знаки налепить, а вот что то такое на контент…. Я как то слышал про Non copir, но там же на форуме рассказали, что можно и его обходить, так что не стал вникать в это дело, а может зря? Кто что знает про запрет копирования, отпишитесь.

  • комментарий by Yabuti - 22.11.2011, 02:02

    Идея хорошая, но все опять упирается в источники. Под белый сайт такой контент сейчас вряд ли подойдет, а то, что начитают с медицинского канала или передачи «Zdorovje» на английском — УГ, только для сплогов на блогспоте и пойдет )).

    Видел в комментах упоминание «индусы напишут заточенный под кеи текст на хорошем английском по $1 за 1к» — где это так дешево? Минимально, что я находил — по $3 за фарма-контент.
    Подскажите, где дешевые индусы, очень нужно, спасибо!

  • комментарий by patri0t - 22.11.2011, 23:16

    Еще от себя добавлю, что хороший способ получения уникального контента — перевод с иностранных блогов и скан литературы:)

  • комментарий by Saolit - 24.11.2011, 15:44

    Отличная статья! Давно мечтал о чем-то подобном еще в юные годы своей карьеры ))) Очень рад, что технологии развиваются так быстро!

  • комментарий by Fred - 25.11.2011, 01:44

    >>>Идея хорошая, но все опять упирается в источники. Под белый сайт такой контент сейчас вряд ли подойдет, а то, что начитают с медицинского канала или передачи «Zdorovje» на английском – УГ, только для сплогов на блогспоте и пойдет )).

    Хм, а почему ты считаешь, что данный контент не подойдет для белых сайтов? Ведь можно брать новости короткие, переводить их в текст и получать небольшие статьи. Идеально подойдет для новостного сайта.

    А про опечатки в тексте — так мрожно тоже нанять людей которые бы их исправляли. Это не рерайт или копирайт, выйдет гораздо дешевле — не нужно напрягаться.

  • комментарий by The_Rock - 25.11.2011, 16:28

    Fred отличное развитие идеи. Вместо дорогостоящего рерайта новости заказать правку. Даже не думал об этом, какой вышел сразу текст из под станка, такой и кинул, а о том, чтобы заказать правку и получить СДЛ контент.. Неплохо, стоит попробовать.

  • комментарий by Clarsen - 26.11.2011, 14:12

    Достаточно широкое применение можно найти благодаря этому. Интересно, появятся ли ког-да нибудь программы, которые будут описывать видео? Не просто звук форматировать, а распознавать образы и так далее?

  • комментарий by The_Rock - 26.11.2011, 22:33

    Clarsen существует же система распознавания лиц. Просто это всё дорогие и недоступные массам пока вещи. А зачем вам система распознавания видео?

  • комментарий by Yabuti - 27.11.2011, 01:17

    Fred, вообще-то правильно, хорошая идея с пост-обработкой! Спасибо!
    Скажем, если копирайт 1к у индуса или нашего на EN будет $3-5, перевод с другого языка\на другой язык $2-4, то такая вычитка и удаление ошибок — $1-2 — экономия налицо! 🙂
    *Ушел искать подкасты по фарме ))

  • комментарий by Yabuti - 27.11.2011, 13:25

    Текст какой-то странный получается… То ли сорцы такие, то ли я туплю. Хз, как вот такое обрабатывать (скорость 1x, Very High распознавание):
    thank you for your interest in arrivals Texas medicine broadcasts sponges not available from any other source of this is key issues in of these relevant unless Ezra team stressful surprised Alexis Nexis by Jeffrey B. naches in the nineteen sixties and nineteen seventies acute

    Может кто софтину знает, которая в английских текстах автоматом знаки препинания умеет расставлять? А то такая текстовка только на доры пойдет, что, в принципе, неплохо, но я дорами больше не занимаюсь )))
    Спасибо за ответы!

  • комментарий by Нaстя Смирновa - 27.11.2011, 15:08

    Ого, вот это тема! Давно такой интересной пищи для размышлений в паблике не встречала, теперь будем что-то думать и предпринимать) ну и конечно же клепать-клепать-клепать..
    кстати было бы интересно посмотреть что будет если в него загнать русский текст и что получится на выходе

  • комментарий by Аmir - 27.11.2011, 16:02

    Выводы: Наконец из 30 комментаторов кто-то реально попробовал и понял что пока распознавание это мусор из которого сделать текст для СДЛ нужно потратить еще кучу бабла/времени.

  • комментарий by The_Rock - 27.11.2011, 16:24

    Yabuti это из-за того, что прога не распознаёт всю речь, а распознаёт частями. То есть что-то она хорошо услышала и распознала, а что-то было сказано невнятно или отсутствует в её словаре. Изначально я и писал про такой контент на текстовку, но видите, идея пошла дальше. Сделать читаемым и красивым — задача индусов ))

  • комментарий by The_Rock - 28.11.2011, 02:26

    Аmir — о чём собственно и говорилось изначально. В сыром виде это текстовка для доров и ГС.

  • комментарий by Yabuti - 28.11.2011, 05:22

    Amir, не мусор. Просто возиться к этим контентом нужно. Мне проще заказ на бирже копирайтеров дать и все будет в лучшем виде, а здесь комп нагружать, качать аудио, распознавать, гемор.
    Хотя, безусловно, перспектива у этого метода есть, только нужно как-то автоматизировать формирование в человеческий вид ))

    The_Rock, а другим софтом не пробовали распознавать? Я сначала Wave-to-text не искал, пошел от обратного — начал искать софт для распознавания. Нашел софтину Драгон, только лицензия дороговата. Если пользовались Драгоном, подскажите, он предложения формирует или также общей массой выдает?
    Контент всегда пригодится, а от фришного контента кто откажется ))
    Спасибо

  • комментарий by Текстовый контент из аудио | SEOchan :: Бизнес в Сети и все такое... - 28.11.2011, 08:27

    […] RXPblog'е №1 на статью по добыче контента из аудио, вот здесь. После реализации действий в статье контент получил. […]

  • комментарий by The_Rock - 28.11.2011, 12:54

    Yabuti — драгоном не пользовался, нету у меня яблочной продукции. В интернете можно найти примеры текста, написанного драгоном, знаки препинания присутствуют. Вот он http://itunes.apple.com/ru/app/dragon-dictation/id341446764?mt=8

  • комментарий by Yabuti - 28.11.2011, 17:52

    The_Rock, спасибо за инфу, драгона сейчас куплю, о результатах с ним отпишу здесь, как он распознает.

  • комментарий by The_Rock - 28.11.2011, 19:08

    Yabuti было бы просто великолепно! Жду вашего мнения о драгоне!

  • комментарий by Peskov - 8.12.2011, 05:42

    Yabuti — чего молчишь, уже декада канула, а отчёта по драКону нету? Не купил или всё не когда?

  • комментарий by Бaбaй - 9.12.2011, 09:45

    А я добываю контент на инглиш сайтах, превожу, подредактирую и вот вам уникальная статья. Иногда ставлю ссылку на источник или на автора статьи.

  • комментарий by Pavеl - 19.12.2011, 17:05

    Хороший способ недавно сам до него догадался. Но я делаю все-таки не так автоматически все. Просто слушаю аудио (чаще видео), запоминаю, а потом печатаю своими словами.

  • комментарий by Победитель 26-ого месяца Мега акции «Спалил тему – платим смело» | Фарма Блог №1 - RXPblog.com - 26.12.2011, 13:03

    […] На основании установленных ранее критериев жюри единогласно определило победителя двадцать шестого месяца. В этот раз им стал The_Rock со своей статьей Получаем уникальный контент из звука. […]

  • комментарий by Pаvel - 30.12.2011, 15:09

    Скажите, а есть ли такие программы, которые превращают речь в текст без лишних заморочек. То есть я просто говорю в микрофон, например, а программа печатает.
    Очень бы пригодилась мне такая прога.

  • комментарий by Nаme - 20.03.2012, 16:06

    Спасибо автору за отличную статью. Довольно необычный способ добывания новых текстов.

  • комментарий by дэн - 5.04.2012, 19:00

    хорошая идея. Хотя брать контент из звуковых файлов мне уже приходила в голову, но извлекать его при помощи программ это что-то новенькое

Оставить комментарий

(обязательно)
(обязательно)
Введите свой email:

Разделы

Теги

Полезные сайты