• Интерактивное голосовое редактирование текста с помощью новых речевых технологий от Яндекса
    0
    спасибо, fixed
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    0
    Можно и так, и так. Если делать Forward-Backward, будет оценка вероятности для каждого, если Viterbi, то бинарно. На практике Viterbi обычно вполне достаточно, есть соответствующие статьи. Конечно, ошибки случаются (хотя измерить точную величину здесь очень сложно, это отдельная большая задача). Но при наличии достаточного объема данных их можно победить.
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +2
    Expectation-M aximization как раз и нужен, чтобы вручную все не размечать. Действуем итеративно: начинаем с reasonable guess (например, равномерного выравнивания), дальше на каждом шаге делаем realignment. Начинаем с простых GMM моделей для простых фонем, потом постепенно усложняем модель и целевые параметры. В итоге получаем выравнивание приемлемого качества, выбрасываем все остальное и переходим на нейронки.

    Размер тренировочной базы — порядка 300 часов.
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +2
    Мы думаем об этом.
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +1
    Да, конечно. Скоро все будет, в том числе SpeechKit.
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +1
    HTTP API находится в закрытом тесте. Если хотите присоединиться, пишите на speechkit@yandex-team.ru. Пожалуйста, укажите ожидаемый объем запросов в сутки, а также для каких целей планируете использовать.
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +1
    Тогда, кажется, все понятно. Ваши голосовые запросы до нас просто не доходят (на английской локали сейчас включается встроенное андроидное распознавание). Если на русской локали все равно не будет работать, пишите, будем разбираться.
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +1
    Да, странное поведение. Шум не должен мешать, по крайней мере, настолько (мы проводили тесты в разных условиях). Похоже, дело именно в специфике вашего устройства (или, что менее вероятно, интернет-соединения). А какая у вас локаль, кстати?

    Пожалуйста, пришлите в личку ваш e-mail. Мы свяжемся с коллегами из Навигатора и постараемся вместе решить вашу проблему.

    И спасибо за багрепорт :)
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +1
    Можно попробовать. Пожалуйста, опишите симптомы: какое у вас устройство, какую версию Навигатора вы используете, что говорите в микрофон, и что вам возвращает наше распознавание. Можно в личку. Спасибо.
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +2
    Спасибо! По поводу распознавания в условиях очень сильного шума — мы знаем об этой проблеме и уже в определенной степени продвинулись в ее решении. Конечно, это затрагивает пограничные случаи, когда и человек не всегда справляется с задачей распознавания.
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    0
    В смысле просто распознать речь, записанную в файл? Конечно, разницы нет; как правильно говорят ниже, вопрос в наличии HTTP API.
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +2
    Ну как вам сказать. В части HMM практически не устарел. В остальных — к сожалению, да, хотя книга остается хорошим, основательным, вводным пособием.

    С другой стороны, хороший неустаревший учебник сходу я даже не назову. Неплохой обзор от 2008 года есть в Jurafsky&Martin, но там всего 4 главы посвящено собственно речи, да и такие ключевые на сегодняшний день технологии, как WFST и DNN, в контексте распознавания речи не упоминаются.

    Вообще, в целом область сейчас развивается очень быстро, очень сложно зафиксировать state of the art. Думаю, учебники появятся, когда будет очередное затишье :)
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    0
    Ваши аргументы вполне разумны. Тем не менее, нашей системой пользуется много людей (делаются миллионы запросов в неделю), а значит, она удовлетворяет реальную потребность :)

    Что до систем пятнадцатилетней давности, то они решали совсем другую задачу — распознавание команд из весьма ограниченного набора, а не распознавание спонтанной речи со словарем в сотни тысяч слов.
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    0
    Конечно, вы отчасти правы. Есть приложения, где необходима стопроцентная точность: например, диктовка юридических документов. Вероятно, там мы увидим распознавание речи нескоро.

    Вместе с тем, есть очень много практических приложений, когда распознавание речи очень полезно: простейший пример — использование автомобильного навигатора, когда руки заняты. Другие известные приложения — системы «умный дом», автоматические колл-центры; нет никаких препятствий, чтобы использовать эту технологию для заказов в магазинах или ресторанах (и мы будем рады, если наш SpeechKit поможет реализации такой идеи).

    И, конечно, совершенно отдельный разговор — люди с ограниченными возможностями по зрению. Для них технологии распознавания и синтеза речи буквально открывают новый мир.
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +2
    конкретные детали раскрывать не могу, но идея хорошая :)
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +5
    Мы думаем об открытии HTTP API.
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +2
    Спасибо за совет, подумаем в этом направлении :)
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +1
    Разумеется, мы сравниваем по нашей тематике — поиск в интернете (Мобильный Браузер) и геозапросы (Карты и Навигатор). Цифры для нашей системы приведены в посте; что касается других систем, то открытые данные, которые можно найти в статьях, сообщают о WER в диапазоне 15-20% для общего поиска (для английского языка). Видно, что мы как минимум попадаем в этот диапазон.

    Распознавание новостей — конечно, тоже интересная и важная задача, но, как вы понимаете, там используется адаптированная именно к новостям языковая модель, да и акустика имеет свои особенности (относительно мало внешнего шума, большинство говорящих — профессиональные журналисты или дикторы).
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +5
    Очень интересно. А у вас реализация с LSTM или без?

    Не обещаю, что мы воспользуемся вашими наработками (и в любом случае свяжемся с вами отдельно, если захотим), но уверен, что сообществу пойдет на пользу публикация кода. Поэтому идею вашу целиком и полностью поддерживаю :)
  • Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit
    +5
    Спасибо за комментарий!

    Действительно, про языковые модели в статье сказано мало. В качестве основной используется n-gramная модель (потому что легко трансформируется в WFST), но для рескоринга применяются более сложные модели, одна из них, действительно — рекуррентные нейросети.
    Что до RBM, то это, понятно, только инициализация. Собственно детали тренировки касаются как структуры нейросети, так и параметров обучения (momentum, dropout, и т.д.). Мы сейчас активно работаем над оптимизацией этих параметров, но текущая реализация, разумеется, включает в себя все эти детали.
    Что до фич, то в принципе можно использовать просто Mel-filterbank'и. И даже есть много статей, что они не уступают по качеству MFCC, если использовать DNN. Но наши эксперименты показывают, что наоборот, более сложные фичи (поверх MFCC) дают определенное преимущество.

    И да, по качеству распознавания мы уже не отстаем ;) Можете сами проверить в Навигаторе или Мобильном Браузере.