Как стать автором
Обновить

Комментарии 2

Сорри за оффтоп, но есть три вопроса:

Первый по постскриптуму: нельзя ли детектировать зашумлённость канала каким-нибудь простым детектором, например просто считать энтропию распределения, или дисперсию? Не понизит ли это ошибку

Второй: А как системы распознавания речи работают на голосовых синтезаторах? Скажем, Сфинкс хорошо распознаёт Фестиваль?

Третий: В сравнении с коммерческими разработками, насколько хуже работает Сфинкс? Субъективно?
Какие интересные вопросы… Постараюсь ответить =)

1. Я думаю, Signal-to-noise ratio и Signal-to-interference ratio должны подойти в качестве метрики.

2. Никогда не слышал ни о чем подобном. Робот позвонил в хелпдеск, а нам том конце тоже робот? =) Могу предположить, что качество распознавания будет неплохим (лучше чем для человеческой речи), если натренировать модели на синтезированной речи.

3. Для начала, невозможно провести такую черту, потому что сфинкс часто используется, и весьма успешно, в коммерческих разработках. В любом случае, алгоритмы в основе лежат те же. Поэтому сравнивать нужно не движки, а акустические и языковые модели, фронтенды отвечающие за шумопонижение, вобщем весь тот обвес, который и создает в конечном итоге систему распознавания. Сфинкс — как лего. Если собрать из него гоночную машину, она застрянет на огороде, где проедет проприетарный трактор. А конкретно не скажу, не сравнивал. Да и корректное сравнение очень тяжело провести. Например, моя система на основе сфинкса работает лучше Google Speech API для одной специфической задачи. Но только потому, что у гугла языковая модель «для всего» и огромный словарь, а моя система конкретно заточена под предметную область. Впрочем, в коммерческих системах активно внедряется акустическое моделирование на DNNs (глубоких нейронных сетях) вместо GMMs, и языковые модели тоже на нейронках. Сфинкс тут пока отстает, но я думаю в скором времени эти техники будут реализованы и в нем.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории