RealSpeaker Jul 16 2014 at 21:51

Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода

12 min

45K

Open source*Mathematics*

+28

Comments 18

mbait Jul 17 2014 at 01:25

Не хватает kaldi.sourceforge.net/.

RealSpeaker Jul 17 2014 at 01:26

Спасибо, за дополнение, ждал такой комментарий!

jonywtf Jul 17 2014 at 08:21

Очень бы хотелось иметь качественную открытую оффлайновую систему распознавания русской речи для умного дома.
Спасибо за интересный обзор!

HomoLuden Jul 17 2014 at 12:30

«100% русскую систему распознавания русской речи»

-1

elve Jul 17 2014 at 09:28

Обзор напоминает реферат, которые мы в универе писали. А как же попробовать их все и написать что-то от себя? Ну хоть какое-то сравнение и хоть какие-то ощущения от использования каждой из систем…

RealSpeaker Jul 17 2014 at 09:34

Тут были недавно уж посты про то, как работают аудио системы распознавания речи типа Sphinx и PocketSphinx Julius (недавно выходил но похоже автор удалил)

RealSpeaker Jul 17 2014 at 09:37

Общего разбора давно не было. Последний в 2009. Здесь цель стояла рассмотреть, что вообще есть сейчас.

UFO just landed and posted this here

ServPonomarev Jul 17 2014 at 10:55

Распознавание русской речи только по звуковой дорожке, с большим словарём, в настоящий момент выполняется с точностью порядка 80% в модельных условиях (диктор в тихой комнате) и существенно меньше в условиях зашумления (при обработке телефонного звонка, к примеру). Этой точности достаточно, что-бы выделить в речи ключевые слова-маркеры и на их основе отработать. Примером такой системы является Елена, служба телефонной поддержки.

Однако, такой точности пока недостаточно, что-бы перейти к распознаванию связной речи для последующего анализа системами NLP.

Думаю, дополнительная информация о положении губ позволит здорово повысить точность распознавания речи. В идеале — это позволит разработать более совершенный механизм распознавания (сейчас распознавание проводится на основании метрики Левенштейна, что не позволяет использовать дополнительные «внешние» источники информации) для речи без поддерживающего видео. И вполне возможно — даже научиться читать по губам.

В общем, тема эта интересная, и по моей информации, отечественный поставщик речевых решений (Центр Речевых Технологий, Санкт-Петербург) открыт к сотрудничеству по интересным проектам.

Я этой темой тоже интересуюсь.

Sleuthhound Jul 17 2014 at 11:11

В общем, тема эта интересная, и по моей информации, отечественный поставщик речевых решений (Центр Речевых Технологий, Санкт-Петербург) открыт к сотрудничеству по интересным проектам.

Нифига он не открыт, я писал им раза 3 за последний год, они ни разу не ответили. Я думаю они работают только с оооочень крупными играками рынка, обычный обыватель со своими проектами им не интересен. Но даже в этом случае, не ответить хотя бы отказом с их стороны это свинство.

ServPonomarev Jul 17 2014 at 11:18

Нифига он не открыт, я писал им раза 3 за последний год, они ни разу не ответили.

К сожалению, так часто случается при «холодных» письмах и звонках. Я могу дать Вам контакт, который Вас явно не проигнорирует. Посетите этот сайт и напишите письмо интересующему Вас сотруднику ЦРТ.

Sleuthhound Jul 17 2014 at 11:47

Спасибо за наводку, написал. Надеюсь ответят.

andymitrich Jul 17 2014 at 11:24

Заметил, что уже не первая ваша статья на такую тему — с завидной частотой публикуете. Это части какой-то вашей работы?

RealSpeaker Jul 17 2014 at 14:29

Верно, это часть исследовательской работы, которая проводилась мной на базе Марийского Политеха (сейчас Волгатех), когда я был еще студентом. Старался в то время научно оформлять. Собирался в аспирантуру вначале. Но не сложилось. Нигде не публиковалось, а удалять не хотелось. Рукописи не горят.:) Вот и выложил. Много дров наломал, может кому-то и пригодиться.

andymitrich Jul 17 2014 at 18:06

Это вы правильно. Я думаю, что материал определенно пригодится)

nickolaym Jul 17 2014 at 14:14

Мне кажется, что есть некоторое обольщение опенсорсом.
Фреймворк может быть сколь угодно свободным и халявным, но где-то ещё надо раздобыть базы знаний — тысячи часов фонограмм с текстовой разметкой, построенные на их основе нейросети и марковские модели, отрегулированные подстроечные параметры.
И это уже, на самом деле, рокет саенс. Он чисто по объёму — рокет. Счёт идёт на терабайты.
Покажите мне опенсорсный источник хорошо структурированных терабайтов ASR русского языка. Где этот аттракцион невиданной щедрости?

RealSpeaker Jul 17 2014 at 16:02

Когда писал статью, сам был фанатом опенсорса и сидел на Убунту. Наивно верил, что вот оно будущее! Программа — это общественное достояние, не будут корпораций, все индивидуально. Статья пронизана этой юношеской романтикой молодости. Хоть и времени не так много прошло, но многое в моих представлениях поменялось однако. Аттракциона невиданной щедрости пока и не видно. А жаль.)

nickolaym Jul 17 2014 at 16:28

Ну, в недрах ЦРТ, Яндекса, Гугла, Нюанса, или в закромах ведущих университетов (СПбГУ, например) эти базы есть.
Поэтому если хочется серьёзно заниматься ASR — надо работать в фирме или дружить с кафедрой.

ЦРТ, кстати, ищет людей с горящими глазами и умелыми руками, так что велкам с резюме в наш отдел кадров.

Show the best of all time