Pull to refresh

Comments 8

UFO just landed and posted this here
Фреймы обычно делают с перекрытием, потому что нужно уловить не только звуки но и переходы между ними. Длительность всего фрейма 25мс, перекрытие со следующим 15мс.
UFO just landed and posted this here
UFO just landed and posted this here
делать что то типа железного тензорного процессора не собрались?

Нагрузка именно на тензорное вычисление у вас получится большой…
А как синтез речи в яндексе происходит? Насколько я знаю, есть два с половиной подхода: компоновать заранее записанные фонемы, генерировать спектрограмму, и работающий в 100 раз медленнее реалтайма wavenet. Минус первого — безэмоциональность, минус второго — «железность» звука. Что яндекс делает в этом направлении?

Какой сейчас лучший WER у open source библиотек? Просто интересно, насколько Яндекс лучше?

Sign up to leave a comment.