суббота, 19 января 2008 г.

Палю тему - Как получить много уникального читаемого текста.

На одном их буржуйских форумов вычитал идею, как можно автоматически получить огромное количество уникального читаемого тематического контента.

Суть до гениальности проста.
Находится материал по теме в аудио-формате (курсы, семинары, аудиокниги, сообщения на аудиоблогах и т.д.).

С помощью программы распознавания речи этот текст из аудио-формата переводится в текстовый.

Готовый текст делится на блоки (по 4-5 абзацев). И размещается на блогах, сайтах и т.п.

Плюсы этого метода: достаточно высокая скорость получения текста. Текст получается тематическим, и уникальным. Работа идёт в автоматическом режиме.

Минусы: машинное распознавание - это неизбежные ошибки в тексте, неправильная пунктуация (или её полное отсутствие).

Однако, идея сама по себе не плохая.

Её можно интерпретировать и для тех, кто занимается копирайтингом, рерайтом и т.п.
Всместо набора текста, его можно проговаривать. А полученный после распознавания текст можно править. Это гораздо быстрее, чем писать всё вручную.

Осталась самая малость - найти хорошую программу распознавания речи, и источники уникальных аудиофайлов.
Всё - система массового производства уникального контента готова.

Буржуи предлагают использовать Nuance Dragon NaturallySpeaking (http://www.nuance.com/)
Для русского языка я пока вариантов не искал.

Если знаете хорошие - кидайте ссылки в комменты.

3 комментария:

Redmonk комментирует...

Программы для распознавания руссой речи называются: "Горыныч" и "Диктограф". Обе в сети лажают как только можно.
Зато и стоят не дорого.

Если есть ещё варианты - называйте. Будем изучать.

andy комментирует...

тема интересная, но сложная, Билл Гейтс пообещал что лет через пять, клавиатуру и мышь можно будет повесить на стенку как раритет, ибо компы начнут понимать голоса. Кстати, на висте есть функция распознавания голоса, и гляньте как парень пытается с ней работать )))
http://www.youtube.com/watch?v=KyLqUf4cdwc&feature=related

Redmonk комментирует...

Да. Тема не простая.
Но, кстати, в несовершенстве компьютерного распознавания текста для "серого" СЕО кроется большой потенциал.
При удачном распознавании 60-85% исходного текста (а сейчас именно такие данные указывают те, кто использует данную методику работы), текст получается с одной стороны достаточно читаемым (при беглом просмотре), а с другой АБСОЛЮТНО уникальным (даже если исходный айдио-текст имеется и в текстовом варианте, за счет неточностей машинного распознавания происходит подмена слов созвучными).

Ну и то, что текст в любом случае остаётся тематическим - просто замечательно.

В общем, если этот опыт лично у меня удастся (или не удастся) - обязательно напишу.