domage Jul 15 2009 at 18:16

Распознавание речи. Часть 1. Классификация систем распознавания речи

4 min

42K

Artificial Intelligence

+49

Comments 40

Sirob039 Jul 15 2009 at 18:29

Эшелон то распознает. Не исключено что и Русскую речь.
habrahabr.ru/blogs/lenta/1986/

domage Jul 15 2009 at 18:41

Про применение систем распознавания речи в спецслужбах я могу только многозначительно промолчать. Если уж Google позволил себе сделать свободно-доступной систему логов телефонных разговоров, то за ширмой, я думаю, уже выжали из этой технологии все что возможно. И анализ эмоций, и распознавание диктора, и поиск по «слову-маркеру»…
В той ссылке которую вы дали, насколько я понял, ведется речь об анализе речи на предмет эмоциональной насыщенности. При этом, про распознавание слов и речи ничего не говорится.

Скорее всего, оно уже реализовано, и если вы по междугородге говорите на чистейшем англицком — то, скорее всего, вы уже записаны ;0) А вот с русскими словарями, к сожалению, пока что проблемы…

Sirob039 Jul 15 2009 at 18:51

А что промолчать? По Гуглу и сужу. Русский во времена холодной войны был приоритетным по прослушке, так что вполне могли сделать. И еще не пришло время рассекречивать такие проекты — конечно в статьях основанных на фактах, а не на домыслах, не будет речи о распознавании.

Почему именно по междугородке? Думаете у «них» есть технология прослушивания проводных переговоров? У «нас» то есть СОРМ, а у «них» есть что то кроме радиоразведки?

domage Jul 15 2009 at 18:54

Промолчу, ибо не компетентен :0)
И про прослушку знаю не больше, чем в «Популярной Механике» пишут.

HounD Jul 16 2009 at 06:54

en.wikipedia.org/wiki/Lawful_interception

domage Jul 16 2009 at 06:59

Если интересно:
www.computerra.ru/414976/?phrase_id=10675692

HounD Jul 16 2009 at 07:11

Это вы к чему? Мой пост был комментарием к фразе: «У «нас» то есть СОРМ, а у «них» есть что то». Пожалуйста, знакомтесь что есть у них и как называется. А skype дело темное и исследоваию не подлежит. Хотите спать спокойно молчите ;). Ну или как минимум только открытые технологии.

Castle Jul 15 2009 at 19:28

Америка давно не скрывает, что слушает и распознаёт переговоры по сот. Подробностей не помню — в инете много инфы про это. Это не скрывают. Как всегда говорят против терроризма :)
Наши, сотовые тоже давно слушают, и не скрывают сильно это. И текст распознают тоже.
Помню как-то по орт даже репортаж был, мол готовилось заказное убийство на какого-то серьёзного человека нашей страны, и спалили это благодаря тому, что обсуждали заказ открытым текстом по сот телефону. Я тогда ещё удивился, как так, зачем рассказали это массам про эту технологию.

Halt Jul 16 2009 at 20:31

Ну на самом деле, это еще далеко не факт что там применялось именно распознавание. Ну или баба клава на проводе :)

Или они там прямо про парсеры говорили?

Castle Jul 16 2009 at 20:43

ты представляешь сколько нужно баб Клав?
Да, так и говорили про распознание текста по словарю.

Halt Jul 16 2009 at 20:49

Да не, это понятно… я просто подумал про то что изначально была ориентировка на этого человека, а потом уже раскопали.

А ты значит говорил что в принципе первая зацепка этого дела была вытянута из разговоров произвольных людей, так?

Castle Jul 17 2009 at 07:23

именно! поэтому я и удивился, что это народу рассказали. Обычному смертному не надо знать что его слушают.

Halt Jul 17 2009 at 08:38

Ага, понятно :) Ну а по поводу смертных, я думаю им банально пофиг. Или решили выпендриться.

Вообще, это в каких нибудь европах бы вызвало некий негативный резонанс, а тут…

Fiery_Ice Jul 22 2009 at 20:31

Ну на самом деле, поскольку эта система узкоспециализированная — то ей не нужно быть супервысокотехнологичной: если просто надиктовывать ей текст то скорее всего она большую часть его не распознает, или будет работать ужасно медленно (с большим словарем); а вот на ограниченном словаре фраз типа «застрелить, оружие, взрыв, ...» — в самый раз. А этого достаточно, что бы пометить конкретный разговор, который впоследствии будет перепроверен «вручную». А раз достаточно — то тратится на приближение к универсальному распознаванию вряд ли кто-то будет, т.к. при высокой универсальности еще надо как минимум сохранить ту узкоспециализированность, а это сложно. Усложнять себе работу без улучшения результата (им то нужно потенциальных преступников отлавливать, а не софт для перевода речи в тест, разработать) — бессмысленные затраты времени и денег. Соответственно ничего сверхкрутого у спецслужб быть не обязано (хотя, в принципе, и может).

RenegadeMS Jul 15 2009 at 18:30

очень милая статья, автор молодец перелопатив материал

немного забегу вперед и спрошу, нетерпится — сколько планируется их в цикле? про что еще поведаете?

domage Jul 15 2009 at 18:52

Сколько — пока не знаю точно.
Пока думаю что не меньше 3-4 частей обзорных.
Дальше — война план покажет.

Что расскажу — вот тут написал: domage.habrahabr.ru/blog/64572/#comment_1797664

Kron0S Jul 15 2009 at 18:36

а про мат аппарат будет? и про реализованные библиотеки для распознования речи

domage Jul 15 2009 at 18:50

Посмотрим как пойдет.
Мат аппарат будет обязательно (правда, боюсь с формулами тут придется повозиться).
Хотя бы в общих чертах расскажу про цепи маркова, вейвлеты, фильтрацию. От нейросетей тоже никуда не деться.
А с реализованными библиотеками будет труднее: без испытания про них говорить нечего, а на это требуется тьма времени…

Krofes Jul 15 2009 at 18:38

Великолепная статья! Очень жду продолжения.
А нет ли у вас ссылок хороших по теме? Было бы очень интересно почитать про это дело по-глубже, про вейвлет-преобразование то же…

domage Jul 15 2009 at 18:47

Ах эти вейвлеты…
Да, про них буду писать. К сожалению, сил пока нет скомпоновать всю библиографию, но для затравки — самое оно (практически библия распознавателя речи):
Huang Xuedong. Spoken language processing: a guide to theory, algorithm and system development. –New Jersey: Prentice Hall PTR, 2001. – 980 с.
У меня где-то была, как найду — выложу обязательно.

Krofes Jul 15 2009 at 18:50

Нашел… :) Спасибо больше, постараюсь что-нибудь прочитать и усвоить, надеюсь знания языка хватит :)
Желаю вам ещё много хороших статей! :)

domage Jul 15 2009 at 19:05

Можешь сразу ссылку кинуть сюда?

Krofes Jul 15 2009 at 19:27

Взял на себя смелость перезалить, ибо Рапидшара как-то совсем сдает, 5-минутные задержки — это круто.
narod.ru/disk/10964878000/Spoken%20Language%20Processing%2C%20A%20Guide%20to%20Theory%2C%20Algorithm%20and%20System%20Development%20-%20ISBN%200130226165%20-%20965s%20-%20Laxxuss.pdf.html

Dronix Jul 16 2009 at 08:07

а vselisdelal.ru разве не распознает?

domage Jul 16 2009 at 08:12

О!
Да.
Распознает.
habrahabr.ru/blogs/startup/36752/

Если знаете еще подобные сервисы, ориентированные на русский язык, было бы интересно узнать и о них.

domage Jul 16 2009 at 08:12

smileart Jul 16 2009 at 08:12

На сколько я понимаю, распознает. Даже в Evernote предлагают создавать заметки по телефону голосом.

domage Jul 16 2009 at 08:20

А Evernote — наша разработка?
Вообще, было бы очень интересно узнать, для распознавания они используют «коробочные» решения или сами реализуют?..
Глубоко сомневаюсь, что сегодня ради такой системки будет свою библиотеку распознавания речи писать, обучать и т.п.

smileart Jul 16 2009 at 08:27

При чем тут чья разработка Evernote? Я говорил о том, что vselisdelal.ru распознают для Evernote — видел рекламу в клиенте :) vselisdelal.ru/Evernote.aspx

А что они используют написано по ссылке приведенной выше. Цитирую: «П.с. 1. так как этот сервис идет на базе технических решений другого (основного) проекта, то мы смогли отстоять возможность пользоваться им бесплатно.»

Dronix Jul 16 2009 at 08:41

Даже если и непричем, Эверноут все таки наша разработка)

Danov Jul 16 2009 at 08:27

Но судя по предоставляемым возможностям, там человек сидит.

Dronix Jul 16 2009 at 08:44

В посте про Вселисделал это обсуждали, но нас уверили что это все-таки система, я к этому тоже склоняюсь как то более.

Danov Jul 16 2009 at 08:29

Очень хорошее введение! Спасибо!
Надеюсь, эта статья поднимет новую волну разработок.
Действительно, очень не хватает русскоязычных движков.
Очень не хватает!

pingu Jul 16 2009 at 11:49

Для тех кого интересует распознование речи: voxforge.org — opensource проект, нужны добровольцы, нужно наговаривать текст онлайн, прямо на странице. Многие opensource программы нуждаются в этой базе (например: Julius, Sphinx, HTK)

kartoshin Jul 16 2009 at 12:56

Зашёл сюда чтобы спросить про открытое ПО. Спасибо.

raspezdal Jul 16 2009 at 14:45

Хуанг Хуедонг и ДонгСук хех, представляю как они ржут с наших «Иван Сидоров»,…

domage Jul 16 2009 at 17:15

Угу. А что, обычные американские ученые…

Nashev Jul 18 2009 at 23:24

А уж как англичане ржут с нашего «Сергей»…

babysas Jul 18 2009 at 11:44

Ох, как я не навижу эти распозновалки в колинг центрах.
У меня произношение очень даже на уровне, а они даже Yes или No часто не могут разобрать не говоря уже о выборе варианта adviser из меню. Уж тупо на диалпаде быстрее было. а что больше всего огорчает, что менеджер все равно переспрашивает, как правило, все что ты мучался вбивал и надиктовывал за крайне редким исключением.

Kirhgoff Dec 30 2013 at 11:54

Для своего психологического (магистратура РГГУ) исследования думаю попробовать написать инструмент. Хотел просто понять, насколько это сложно, сам программист с 10-летним стажем. У меня задача на первый взгляд кажется упрощенной — мне надо в записи терапевтической сессии выделять некие ключевые слова, сказанные клиентом — например, «я». именно отдельные слова, как «Я программист», а чтобы слова «Молния!» пропускались. Или «сам», «сам себе». А так же, возможно, другие местоимения и их формы. Не посоветуете, куда посмотреть, что почитать? 4 года прошло, но вдруг у вас есть что-то новое по теме.