Флагманская Text-to-Speech модель Eleven v3 официально вышла из стадии альфа-тестирования и стала доступной для коммерческого использования. Основной упор в финальной версии сделан на точность интерпретации сложных данных, где чтение символов критически зависит от окружения.

После выхода альфа-версии компания продолжила совершенствовать модель. Два ключевых улучшения:

  • Более стабильная работа. В ходе тестирования пользователи в 72 % случаев отдавали предпочтение новой версии по сравнению с предыдущей альфа-версией.

  • Более точная работа. Значительно улучшилась обработка моделью чисел, символов и специальных обозначений на разных языках.

Повышение точности

Модели преобразования текста в речь должны интерпретировать то, что вы пишете, и решать, как это произнести. Одни и те же символы могут означать разные вещи в разных контекстах.

Рассмотрим телефонный номер: «+49 170 9876543»

В некоторых случаях модели считывают это как «плюс сорок девять, сто семьдесят, девять миллионов восемьсот семьдесят шесть тысяч пятьсот сорок три», интерпретируя цифры как большие числа, а не как последовательность цифр. Правильное прочтение: «плюс четыре девять, один семь ноль, девять восемь семь шесть пять четыре три».

Подобные ошибки возникали в разных категориях: спортивные результаты, химические формулы, валюты, координаты - везде, где моделям приходилось интерпретировать символы и решать, как их озвучить.

ElevenLabs провела тестирование на основе внутреннего бенчмарка, охватывающего 27 категорий на 8 языках.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник