Обновить

Наш синтез для экранных читалок (SAPI5) для 20 языков России стал лучше

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели7.2K
Всего голосов 9: ↑9 и ↓0+13
Комментарии3

Комментарии 3

Спасибо за Silero TTS !
1. Можно сделать регулировку скорости обычным образом (как выбирается частота дискретизации, к примеру). Через SSML это неудобно и проблемно.
2. Как именно озвучиваются латинские буквы ? У меня в скрипте на питон это просто "а" "бэ" и т.д. Но "собрать" из них на слух слово получается плохо, паузы слишком маленькие между буквами (может, есть и другие причины).
С греческими буквами намного лучше, так как у них полноценные названия- "альфа" "бэта" и т.д.

  1. Когда-то так было, но потом возникали запросы типа хочу разные слова или фразы делать разной скоростью, одно время были эти legacy-интерфейсы, потом убрали и их, чтобы не было ада с поддержкой разных версий для разных мест.

  2. В публичном движке синтеза, если я правильно понял вопрос, — никак. В SAPI читалке, скорее всего, просто тупо замена букв на аналоги, но это читалка, и там идеальное прочтение менее важно, чем точное прочтение.

Если стоит задача фармить именно паузы между буквами на движке синтеза, то тут три пути:

  • Играться с SSML

  • Играться с запятыми или точками

  • Пробовать какие-то схемы с кастомным написанием, пробелы / твёрдые знаки

  1. Понятно. Просто SSML более капризен к символам, да и полезную длину чанка вроде уменьшает.

  2. Запятые я пробовал ставить между простыми названиями латинских букв ("бэ" "дэ" и т.д.). Звучит хуже чем просто пробелы (вероятно, потому что запятые слишком часто идут).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации