Платформа Artificial Analysis обновила свой лидерборд моделей синтеза речи (TTS, text-to-speech). В пятёрке самых предпочтительных моделей – сразу три представителя Inworld, а компанию им составляют MiniMax и ElevenLabs.
Первое место, с результатом 1 238 Эло, заняла модель Inworld TTS 1.5 Max, следом идут ElevenLabs Eleven v3 (1 197), Inworld TTS 1 Max (1 183), Inworld TTS 1.5 Mini (1 182) и замыкает топ-5 MiniMax Speech 2.8 HD (1 175). Интересно, что четыре из пяти лидеров были выпущены в этом году, – прогресс идёт семимильными шагами.

Авторы исследования отмечают: современные модели звучат всё более реалистично. Разница в предпочтениях пользователей теперь чаще сводится не к тому, “звучит как робот или нет”, а к субъективной симпатии к тому или иному тембру. К тому же в последней версии рейтинга усилили фильтрацию голосов – данные сверяли с результатами сторонних оценщиков, а для каждой модели добавили диапазон возможных позиций на основе 95%-го доверительного интервала.
А вот по скорости генерации (batch-обработка) неожиданно лидирует Google WaveNet, с показателем 419 символов в секунду. Второе место у Kokoro 82M v1.0 (Replicate) – 235 симв/с, третье у Inworld TTS 1.5 Mini – 214 симв/с. Далее идут Microsoft Azure Neural (204) и MiniMax Speech 2.8 Turbo (177).

Проверить свои предпочтения и послушать образцы голосов можно на публичной TTS-арене или в эксплорере сэмплов. Кстати, проголосовать там может любой желающий – так что у сообщества есть все шансы повлиять на будущие строчки рейтинга.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
