timonin25 янв в 07:33

Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия

Простой

3 мин

28K

Open source *

Обзор

+33

Комментарии 29

Efrem3112 25 янв в 08:58

Кому пригодится
Создателям контента — озвучка роликов, подкастов, стримов.
Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.
Аудиокнигам — разные голоса для персонажей.
Автоматизации — голосовые уведомления, IVR-системы, ассистенты.

И не только...

Wesha 26 янв в 00:49

Мама, я попал в аварию!

Mike-M 26 янв в 12:24

Присоединяюсь. В списке пользователей нет главного пункта: Мошенники

darkslya 25 янв в 11:11

20гб места чтобы можно было медленно озвучивать небольшие тексты - сомнительно.

У меня 3080ti пару строк текста озвучивает минуты 2. Средненькое качество (интонации часто не в тему или вообще меняются). Разве что для коротких фраз подойдёт. Но работает без интернета, когда всё докачается.

За старания - спасибо.

timonin 25 янв в 12:08

20 гб - все модели, все вам в итоге не нужны будут, а так модели по 3 гига. И окружение еще гигов 7-10.

darkslya 25 янв в 14:26

я скачал архив, запустил install.bat, потом run.bat - у меня заняло 3+ гига на диске C (видимо питон и что-то ещё, в общем совсем не portable версия) и 10+ гигов на том диске, куда я скачал. Затем в самой программе я просто перешёл во вторую вкладку, где клонирование голоса - и у меня ещё скачалось 5гб. Без всяких подтверждений-запросов. В фоне. Я никакие модели отдельно не качал.

emulio 25 янв в 15:27

Заметил, что ударения не всегда правильно расставляются. Это исправляется какими-то словарями?

rodial 25 янв в 21:12

я решил провести эксперимент и попробовал указать ударение в этой модели

сработало: zamək или zaˈmok?

не сработало:

зАмок или замОк?
з+амок или зам+ок?
з^aмок или зам^ок?
за́мок или замо́к?
<phoneme alphabet="ipa" ph="ˈzamək">замок</phoneme> или <phoneme alphabet="ipa" ph="zaˈmok">замок</phoneme>?
з'амок или зам'ок?
з!aмок или зам!ок?
заммок или замоок?

Wesha 31 янв в 02:36

МассачусЕтский институт (из примера в статье) аплодирует стоя.

nkp07 1 фев в 14:25

Работает удвоение ударных гласных вот так:
У моей рукии пять пальцев. Мои руки длинные!
Я еду в заамок, на котором замоок.

Newbilius 25 янв в 17:36

Что с коммерческим использованием готовых или склонированных голосов (если автор голоса не против)? Можно использовать результат генерации в рекламе, фильме, игре и т.п.?

Mike-M 26 янв в 12:28

Думаю, китайцев этот вопрос заботит меньше всего. Отношение к интеллектуальной собственности у них весьма специфическое...

yrub 26 янв в 17:39

это вы так думаете, к своей вполне трепетное. недавно была другая модель кажется от qwen - переводчик, свободно деньги зарабатывать не разрешают

Newbilius 27 янв в 08:27

Вопрос про лицензию, думаю автор, продвигающий это дело наверняка изучил, потому и интересно)

Потому что в том же Steam могут потребовать - "вы явно пользовались генеративкой, дайте ссылку на лицензию сервиса или вашего договора с ним, что он позволяет коммерческое использование". В посте есть "создателям игр", так что вопрос непраздный. Если лицензия неясная - проще не пользоваться, потому что быть забаненным в ключевом магазине было бы обидно.

popstas 27 янв в 14:27

У них на Github написано: All our open-weight models are licensed under Apache 2.0.
Хотя на результат генерации это не распространяется, но запретительного ничего тоже не вижу.

HackcatDev 26 янв в 02:20

А есть режим "взять образец голоса с записи 1 и наложить его на запись 2"? Эти все TTS заведомо мертворождены, поскольку даже самая продвинутая TTS-модель видит только и исключительно текст, без возможности указать реальные нюансы интонации, звуки, не являющиеся словами (мычание во время обдумывания) и так далее

Rio 26 янв в 04:36

Человек, читающий вслух, тоже видит только и исключительно текст. Так что для подделки голоса и манеры говорить конкретного человека оно может (пока) и не сильно пригодно, но есть огромная сфера применений, где подделывать никого конкретного не нужно.

Wesha 31 янв в 02:38

Человек, читающий вслух, тоже видит только и исключительно текст.

Вот только он, читая текст «Наташа заорала благим матом: — Не подходи!!!» — отреагирует соответственно.

sx66627 26 янв в 07:15

Большое спасибо автору за проделанную работу!
Я часто использую такие инструменты для озвучивания различных событий. Раньше часто использовал Fish speech. Сейчас очень хочу протестировать этот инструмент.

sx66627 26 янв в 07:46

Добавлю:
Работает отлично, генерирует довольно быстро. При клонировании голоса, столкнулся с тем, что не хватает ffmpeg (Для работы с .mp3, .ogg, .flac и т.д. ). Поставил и все заработало.

ru4pae 26 янв в 08:08

У меня пара вопросов. Или пожеланий.

Как озвучить несколько больших кусков текста. В идеале книгу в формате FB2.

Как выгрузить несколькими мр3 файлами озвученный текст? В идеале получить несколько мр3 по главам книги.

И конечно как делать это в автомате. Закинул книгу, получил папку с МР3.

creativcheck 26 янв в 10:22

по идее, написать свой скрипт или бота, который это все сделает. я сам в целом нуб, но недавно навайбкодил такое для озвучки с помощью гугловского api на базе gemini-flash-2.5 чтоб он мне большие тексты разбивал на чанки по 800-1000 символов, озвучивал, сшивал и присылал готовый файл, на гугл колабе запускаю. Работает очень неровно, через Vertex AI, руками эти чанки озвучивать пока лучше получается, хоть и геморно. Но у гугла много ограничений встроено, он все тексты проверяет похоже, на соотвествие своей политике, чтобы без какого-либо намека на насилие и острые темы. Так что у меня половина книги заменялось тишиной или писком

Anselm_nn 26 янв в 19:46

google ai studio дает маленькие лимиты на голосовые вроде?

creativcheck 27 янв в 13:29

да, в студии https://aistudio.google.com/generate-speech там либо вообще генерация не срабатывает на больших текстах, либо после примерно 1-1,5 минуты начинается жесть по звуку. Но есть Vertex AI - через него и дешевле и стабильнее работает, собственно автоматизацию я через его api сделал. Но опять же через клиент по ссылке максимум 2к символов влезает примерно
https://console.cloud.google.com/vertex-ai/studio/media/speech

creativcheck 27 янв в 13:36

Вообще у гугла довольно жирная документация по этому вопросу, есть еще способы через бакет работать, но там ожидание в пару часов, не риалтайм, и я сам не тестил
https://docs.cloud.google.com/text-to-speech/docs/create-audio-text-long-audio-synthesis

alexs963 26 янв в 10:43

https://github.com/DeXP/EbookTalker автор тут на хабре есть.

popstas 27 янв в 13:47

Вручную дозапустил python/python.exe -m pip install sox, в остальном инсталлер сработал, спасибо!

kalixy 30 янв в 05:35

ребят почему после запуска не реагирует?

diamon 12 фев в 19:25

это не портабельная сборка, засирает диск с:, и непонятно куда.
она не работает - просит установки ffmpeg.
Послушал Руслана, вроде похоже, если подбирать слова. Дальше разбираться не стал, удалил виртуалку, ибо клонирование голоса не работает.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий