Pull to refresh

Проект ChatTTS опубликовал модель и связанный с ней инструментарий машинного обучения для синтеза эмоциональной речи. Решение оптимизировано для использования в диалоговых системах, таких как интерактивные помощники, и нацелено на воспроизведение свойств естественного эмоционального общения. Поддерживается взаимодействие с несколькими говорящими людьми и построение интерактивного диалога. Корректно отслеживаются и воспроизводятся при синтезе просодические элементы, такие как смех, паузы и междометия.

При тренировке модели использовано около 40 тыс. часов речевых записей. По заявлению разработчиков, по своим возможностям формирования интонаций модель превосходит все ранее доступные открытые модели синтеза речи.

Для управления эмоциями при синтезе пока поддерживается только подстановка токенов, например, "[laugh]" для смеха. Для генерации полуминутной записи требуется GPU с 4 ГБ памяти. На GPU NVIDIA GeForce RTX 4090D скорость генерации составляет приблизительно 7 семантических токенов в секунду. Поддерживается синтез женским и мужским голосом на английском и китайском языках (для русского языка можно рекомендовать фреймворк TTS и модель XTTS-v2, которые кроме синтеза поддерживают клонирование голоса по короткой записи речи, в том числе для синтеза на другом языке).

Модель ChatTTS опубликована под лицензией CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0) и имеет защиту от совершения мошеннических и криминальных действий.

Источник: OpenNET.

Tags:
Total votes 3: ↑3 and ↓0+7
Comments0

Articles