Комментарии 3
Спасибо за Silero TTS !
1. Можно сделать регулировку скорости обычным образом (как выбирается частота дискретизации, к примеру). Через SSML это неудобно и проблемно.
2. Как именно озвучиваются латинские буквы ? У меня в скрипте на питон это просто "а" "бэ" и т.д. Но "собрать" из них на слух слово получается плохо, паузы слишком маленькие между буквами (может, есть и другие причины).
С греческими буквами намного лучше, так как у них полноценные названия- "альфа" "бэта" и т.д.
Когда-то так было, но потом возникали запросы типа хочу разные слова или фразы делать разной скоростью, одно время были эти legacy-интерфейсы, потом убрали и их, чтобы не было ада с поддержкой разных версий для разных мест.
В публичном движке синтеза, если я правильно понял вопрос, — никак. В SAPI читалке, скорее всего, просто тупо замена букв на аналоги, но это читалка, и там идеальное прочтение менее важно, чем точное прочтение.
Если стоит задача фармить именно паузы между буквами на движке синтеза, то тут три пути:
Играться с SSML
Играться с запятыми или точками
Пробовать какие-то схемы с кастомным написанием, пробелы / твёрдые знаки

Наш синтез для экранных читалок (SAPI5) для 20 языков России стал лучше