Как стать автором
Обновить

Комментарии 18

Спасибо, за дополнение, ждал такой комментарий!
Очень бы хотелось иметь качественную открытую оффлайновую систему распознавания русской речи для умного дома.
Спасибо за интересный обзор!
«100% русскую систему распознавания русской речи»
Обзор напоминает реферат, которые мы в универе писали. А как же попробовать их все и написать что-то от себя? Ну хоть какое-то сравнение и хоть какие-то ощущения от использования каждой из систем…
Тут были недавно уж посты про то, как работают аудио системы распознавания речи типа Sphinx и PocketSphinx Julius (недавно выходил но похоже автор удалил)
Общего разбора давно не было. Последний в 2009. Здесь цель стояла рассмотреть, что вообще есть сейчас.
НЛО прилетело и опубликовало эту надпись здесь
Распознавание русской речи только по звуковой дорожке, с большим словарём, в настоящий момент выполняется с точностью порядка 80% в модельных условиях (диктор в тихой комнате) и существенно меньше в условиях зашумления (при обработке телефонного звонка, к примеру). Этой точности достаточно, что-бы выделить в речи ключевые слова-маркеры и на их основе отработать. Примером такой системы является Елена, служба телефонной поддержки.

Однако, такой точности пока недостаточно, что-бы перейти к распознаванию связной речи для последующего анализа системами NLP.

Думаю, дополнительная информация о положении губ позволит здорово повысить точность распознавания речи. В идеале — это позволит разработать более совершенный механизм распознавания (сейчас распознавание проводится на основании метрики Левенштейна, что не позволяет использовать дополнительные «внешние» источники информации) для речи без поддерживающего видео. И вполне возможно — даже научиться читать по губам.

В общем, тема эта интересная, и по моей информации, отечественный поставщик речевых решений (Центр Речевых Технологий, Санкт-Петербург) открыт к сотрудничеству по интересным проектам.

Я этой темой тоже интересуюсь.

В общем, тема эта интересная, и по моей информации, отечественный поставщик речевых решений (Центр Речевых Технологий, Санкт-Петербург) открыт к сотрудничеству по интересным проектам.


Нифига он не открыт, я писал им раза 3 за последний год, они ни разу не ответили. Я думаю они работают только с оооочень крупными играками рынка, обычный обыватель со своими проектами им не интересен. Но даже в этом случае, не ответить хотя бы отказом с их стороны это свинство.
Нифига он не открыт, я писал им раза 3 за последний год, они ни разу не ответили.


К сожалению, так часто случается при «холодных» письмах и звонках. Я могу дать Вам контакт, который Вас явно не проигнорирует. Посетите этот сайт и напишите письмо интересующему Вас сотруднику ЦРТ.
Спасибо за наводку, написал. Надеюсь ответят.
Заметил, что уже не первая ваша статья на такую тему — с завидной частотой публикуете. Это части какой-то вашей работы?
Верно, это часть исследовательской работы, которая проводилась мной на базе Марийского Политеха (сейчас Волгатех), когда я был еще студентом. Старался в то время научно оформлять. Собирался в аспирантуру вначале. Но не сложилось. Нигде не публиковалось, а удалять не хотелось. Рукописи не горят.:) Вот и выложил. Много дров наломал, может кому-то и пригодиться.
Это вы правильно. Я думаю, что материал определенно пригодится)
Мне кажется, что есть некоторое обольщение опенсорсом.
Фреймворк может быть сколь угодно свободным и халявным, но где-то ещё надо раздобыть базы знаний — тысячи часов фонограмм с текстовой разметкой, построенные на их основе нейросети и марковские модели, отрегулированные подстроечные параметры.
И это уже, на самом деле, рокет саенс. Он чисто по объёму — рокет. Счёт идёт на терабайты.
Покажите мне опенсорсный источник хорошо структурированных терабайтов ASR русского языка. Где этот аттракцион невиданной щедрости?
Когда писал статью, сам был фанатом опенсорса и сидел на Убунту. Наивно верил, что вот оно будущее! Программа — это общественное достояние, не будут корпораций, все индивидуально. Статья пронизана этой юношеской романтикой молодости. Хоть и времени не так много прошло, но многое в моих представлениях поменялось однако. Аттракциона невиданной щедрости пока и не видно. А жаль.)
Ну, в недрах ЦРТ, Яндекса, Гугла, Нюанса, или в закромах ведущих университетов (СПбГУ, например) эти базы есть.
Поэтому если хочется серьёзно заниматься ASR — надо работать в фирме или дружить с кафедрой.

ЦРТ, кстати, ищет людей с горящими глазами и умелыми руками, так что велкам с резюме в наш отдел кадров.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.