Наш новый LLM-based синтез речи

Рассказываем о нашем новом синтезе речи.
Мы так и называем его — «новый синтез», или GigaTTS. Под капотом у него GigaChat 3b, аудио адаптер, собственный токенизатор речи и 30 тысяч часов данных. Никаких диффузий. Очень много работы было проделано над обучением модели, на студии и при подготовке данных для обучения.
Новый синтез до мурашек естественный. Он говорит как живой человек, умеет смеяться и выражать эмоции со всеми нюансами. По метрикам он обгоняет наши прошлые модели в 2-4 раза, особенно большой выигрыш по естественности голоса.
Под катом вас ждем большой технический обзор того, как мы пришли к такому качеству. Покажем freespeech и специально сделанные голоса операторов колл-центров. Поделимся деталями, как у нас получился синтез текста любой длины, prompt following и клонирование голосов

