Alibaba выпустила Qwen3-TTS, которую можно запустить локально на ПК. Нейростеть знает 10 языков, включая русский, работает с разными голосами — меняет пол, возраст, национальности, акценты, темп, тембр, а также различные звуковые эффекты. Работает за 0,1 секунды. Токенизатор на 12 Гц — можно максимально сжимать любое аудио без потери качества.
Ссылка на GitHub. Онлайн-демо доступно тут.

