Comments / Profile of iliia / Habr

@iliia

User

ProfileArticles1PostsNewsComments21

Интерактивное голосовое редактирование текста с помощью новых речевых технологий от Яндекса

iliia Nov 27 2014 at 13:22

спасибо, fixed

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Feb 14 2014 at 11:42

Уже есть, держите:
www.nuget.org/packages/Yandex.SpeechKit/
download.cdn.yandex.net/speechkit/YandexSpeechKitSamples-wp.zip

Документация:
api.yandex.ru/speechkit/generated/winphone/html/index.html

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 25 2013 at 07:54

Можно и так, и так. Если делать Forward-Backward, будет оценка вероятности для каждого, если Viterbi, то бинарно. На практике Viterbi обычно вполне достаточно, есть соответствующие статьи. Конечно, ошибки случаются (хотя измерить точную величину здесь очень сложно, это отдельная большая задача). Но при наличии достаточного объема данных их можно победить.

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 23 2013 at 13:53

Expectation-M aximization как раз и нужен, чтобы вручную все не размечать. Действуем итеративно: начинаем с reasonable guess (например, равномерного выравнивания), дальше на каждом шаге делаем realignment. Начинаем с простых GMM моделей для простых фонем, потом постепенно усложняем модель и целевые параметры. В итоге получаем выравнивание приемлемого качества, выбрасываем все остальное и переходим на нейронки.

Размер тренировочной базы — порядка 300 часов.

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 23 2013 at 09:57

Мы думаем об этом.

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 23 2013 at 08:03

Да, конечно. Скоро все будет, в том числе SpeechKit.

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 23 2013 at 08:02

HTTP API находится в закрытом тесте. Если хотите присоединиться, пишите на speechkit@yandex-team.ru. Пожалуйста, укажите ожидаемый объем запросов в сутки, а также для каких целей планируете использовать.

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 23 2013 at 07:31

Тогда, кажется, все понятно. Ваши голосовые запросы до нас просто не доходят (на английской локали сейчас включается встроенное андроидное распознавание). Если на русской локали все равно не будет работать, пишите, будем разбираться.

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 23 2013 at 07:06

Да, странное поведение. Шум не должен мешать, по крайней мере, настолько (мы проводили тесты в разных условиях). Похоже, дело именно в специфике вашего устройства (или, что менее вероятно, интернет-соединения). А какая у вас локаль, кстати?

Пожалуйста, пришлите в личку ваш e-mail. Мы свяжемся с коллегами из Навигатора и постараемся вместе решить вашу проблему.

И спасибо за багрепорт :)

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 23 2013 at 05:40

Можно попробовать. Пожалуйста, опишите симптомы: какое у вас устройство, какую версию Навигатора вы используете, что говорите в микрофон, и что вам возвращает наше распознавание. Можно в личку. Спасибо.

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 23 2013 at 05:38

Спасибо! По поводу распознавания в условиях очень сильного шума — мы знаем об этой проблеме и уже в определенной степени продвинулись в ее решении. Конечно, это затрагивает пограничные случаи, когда и человек не всегда справляется с задачей распознавания.

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 23 2013 at 05:35

В смысле просто распознать речь, записанную в файл? Конечно, разницы нет; как правильно говорят ниже, вопрос в наличии HTTP API.

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 23 2013 at 05:30

Ну как вам сказать. В части HMM практически не устарел. В остальных — к сожалению, да, хотя книга остается хорошим, основательным, вводным пособием.

С другой стороны, хороший неустаревший учебник сходу я даже не назову. Неплохой обзор от 2008 года есть в Jurafsky&Martin, но там всего 4 главы посвящено собственно речи, да и такие ключевые на сегодняшний день технологии, как WFST и DNN, в контексте распознавания речи не упоминаются.

Вообще, в целом область сейчас развивается очень быстро, очень сложно зафиксировать state of the art. Думаю, учебники появятся, когда будет очередное затишье :)

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 22 2013 at 15:18

Ваши аргументы вполне разумны. Тем не менее, нашей системой пользуется много людей (делаются миллионы запросов в неделю), а значит, она удовлетворяет реальную потребность :)

Что до систем пятнадцатилетней давности, то они решали совсем другую задачу — распознавание команд из весьма ограниченного набора, а не распознавание спонтанной речи со словарем в сотни тысяч слов.

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 22 2013 at 14:57

Конечно, вы отчасти правы. Есть приложения, где необходима стопроцентная точность: например, диктовка юридических документов. Вероятно, там мы увидим распознавание речи нескоро.

Вместе с тем, есть очень много практических приложений, когда распознавание речи очень полезно: простейший пример — использование автомобильного навигатора, когда руки заняты. Другие известные приложения — системы «умный дом», автоматические колл-центры; нет никаких препятствий, чтобы использовать эту технологию для заказов в магазинах или ресторанах (и мы будем рады, если наш SpeechKit поможет реализации такой идеи).

И, конечно, совершенно отдельный разговор — люди с ограниченными возможностями по зрению. Для них технологии распознавания и синтеза речи буквально открывают новый мир.

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 22 2013 at 14:08

конкретные детали раскрывать не могу, но идея хорошая :)

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 22 2013 at 14:07

Мы думаем об открытии HTTP API.

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 22 2013 at 14:06

Спасибо за совет, подумаем в этом направлении :)

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 22 2013 at 14:02

Разумеется, мы сравниваем по нашей тематике — поиск в интернете (Мобильный Браузер) и геозапросы (Карты и Навигатор). Цифры для нашей системы приведены в посте; что касается других систем, то открытые данные, которые можно найти в статьях, сообщают о WER в диапазоне 15-20% для общего поиска (для английского языка). Видно, что мы как минимум попадаем в этот диапазон.

Распознавание новостей — конечно, тоже интересная и важная задача, но, как вы понимаете, там используется адаптированная именно к новостям языковая модель, да и акустика имеет свои особенности (относительно мало внешнего шума, большинство говорящих — профессиональные журналисты или дикторы).

Look

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

iliia Oct 22 2013 at 12:51

Очень интересно. А у вас реализация с LSTM или без?

Не обещаю, что мы воспользуемся вашими наработками (и в любом случае свяжемся с вами отдельно, если захотим), но уверен, что сообществу пойдет на пользу публикация кода. Поэтому идею вашу целиком и полностью поддерживаю :)

Look