Голосовая модель: онлайн от OpenAI с доступом по rest + кастомные обработчики. Сервис написан на NodeJS. По ресурсам за счет внешних сервисов получается достаточно адекватно, основная нагрузка идёт в момент генерации выпусков, когда собираются аудио-файлы. Сейчас всё крутится на сервере 8 ядер, 16 гб озу. Плюс допсервер для для вспомогательных операций. Под онлайн-трансляции (делаем такие для новостных каналов) используются отдельные серверы 4 ядра, 8 гб, на каждом из которых стартует свой набор из нескольких потоков вещания.
Мы используем наиболее продвинутую TTS. Она все еще может путать ударения на русском языке, но по качеству это уже на голову выше, чем ттс-ки годичной давности. Думаю еще полгода-год, и генеративную речь нельзя будет отличить от настоящей.
Голосовая модель: онлайн от OpenAI с доступом по rest + кастомные обработчики. Сервис написан на NodeJS. По ресурсам за счет внешних сервисов получается достаточно адекватно, основная нагрузка идёт в момент генерации выпусков, когда собираются аудио-файлы. Сейчас всё крутится на сервере 8 ядер, 16 гб озу. Плюс допсервер для для вспомогательных операций. Под онлайн-трансляции (делаем такие для новостных каналов) используются отдельные серверы 4 ядра, 8 гб, на каждом из которых стартует свой набор из нескольких потоков вещания.
Каждый день в машине слушаю.
Мы используем наиболее продвинутую TTS. Она все еще может путать ударения на русском языке, но по качеству это уже на голову выше, чем ттс-ки годичной давности. Думаю еще полгода-год, и генеративную речь нельзя будет отличить от настоящей.