Leono Sep 10 2017 at 18:57

Открытые проблемы в области распознавания речи. Лекция в Яндексе

6 min

17K

Яндекс corporate blogAlgorithms*Machine learning*

+45

Comments 8

UFO just landed and posted this here

Optik Sep 10 2017 at 21:31

Фреймы обычно делают с перекрытием, потому что нужно уловить не только звуки но и переходы между ними. Длительность всего фрейма 25мс, перекрытие со следующим 15мс.

UFO just landed and posted this here

erwins22 Sep 11 2017 at 08:31

делать что то типа железного тензорного процессора не собрались?

Нагрузка именно на тензорное вычисление у вас получится большой…

sterling239 Sep 11 2017 at 12:29

А как синтез речи в яндексе происходит? Насколько я знаю, есть два с половиной подхода: компоновать заранее записанные фонемы, генерировать спектрограмму, и работающий в 100 раз медленнее реалтайма wavenet. Минус первого — безэмоциональность, минус второго — «железность» звука. Что яндекс делает в этом направлении?

Regis Sep 11 2017 at 20:01

Какой сейчас лучший WER у open source библиотек? Просто интересно, насколько Яндекс лучше?

Regis Sep 11 2017 at 20:01

Насколько результаты распознавания через https://tech.yandex.ru/speechkit/ могут отличаться от распознования приложениями Яндекса?