Комментарии 24
Кому пригодится
Создателям контента — озвучка роликов, подкастов, стримов.
Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.
Аудиокнигам — разные голоса для персонажей.
Автоматизации — голосовые уведомления, IVR-системы, ассистенты.
И не только...
20гб места чтобы можно было медленно озвучивать небольшие тексты - сомнительно.
У меня 3080ti пару строк текста озвучивает минуты 2. Средненькое качество (интонации часто не в тему или вообще меняются). Разве что для коротких фраз подойдёт. Но работает без интернета, когда всё докачается.
За старания - спасибо.
20 гб - все модели, все вам в итоге не нужны будут, а так модели по 3 гига. И окружение еще гигов 7-10.
я скачал архив, запустил install.bat, потом run.bat - у меня заняло 3+ гига на диске C (видимо питон и что-то ещё, в общем совсем не portable версия) и 10+ гигов на том диске, куда я скачал. Затем в самой программе я просто перешёл во вторую вкладку, где клонирование голоса - и у меня ещё скачалось 5гб. Без всяких подтверждений-запросов. В фоне. Я никакие модели отдельно не качал.
Заметил, что ударения не всегда правильно расставляются. Это исправляется какими-то словарями?
я решил провести эксперимент и попробовал указать ударение в этой модели
сработало: zamək или zaˈmok?
не сработало:
зАмок или замОк?
з+амок или зам+ок?
з^aмок или зам^ок?
за́мок или замо́к?
<phoneme alphabet="ipa" ph="ˈzamək">замок</phoneme> или <phoneme alphabet="ipa" ph="zaˈmok">замок</phoneme>?з'амок или зам'ок?
з!aмок или зам!ок?
заммок или замоок?
Что с коммерческим использованием готовых или склонированных голосов (если автор голоса не против)? Можно использовать результат генерации в рекламе, фильме, игре и т.п.?
Думаю, китайцев этот вопрос заботит меньше всего. Отношение к интеллектуальной собственности у них весьма специфическое...
это вы так думаете, к своей вполне трепетное. недавно была другая модель кажется от qwen - переводчик, свободно деньги зарабатывать не разрешают
Вопрос про лицензию, думаю автор, продвигающий это дело наверняка изучил, потому и интересно)
Потому что в том же Steam могут потребовать - "вы явно пользовались генеративкой, дайте ссылку на лицензию сервиса или вашего договора с ним, что он позволяет коммерческое использование". В посте есть "создателям игр", так что вопрос непраздный. Если лицензия неясная - проще не пользоваться, потому что быть забаненным в ключевом магазине было бы обидно.
У них на Github написано: All our open-weight models are licensed under Apache 2.0.
Хотя на результат генерации это не распространяется, но запретительного ничего тоже не вижу.
А есть режим "взять образец голоса с записи 1 и наложить его на запись 2"? Эти все TTS заведомо мертворождены, поскольку даже самая продвинутая TTS-модель видит только и исключительно текст, без возможности указать реальные нюансы интонации, звуки, не являющиеся словами (мычание во время обдумывания) и так далее
Большое спасибо автору за проделанную работу!
Я часто использую такие инструменты для озвучивания различных событий. Раньше часто использовал Fish speech. Сейчас очень хочу протестировать этот инструмент.
У меня пара вопросов. Или пожеланий.
Как озвучить несколько больших кусков текста. В идеале книгу в формате FB2.
Как выгрузить несколькими мр3 файлами озвученный текст? В идеале получить несколько мр3 по главам книги.
И конечно как делать это в автомате. Закинул книгу, получил папку с МР3.
по идее, написать свой скрипт или бота, который это все сделает. я сам в целом нуб, но недавно навайбкодил такое для озвучки с помощью гугловского api на базе gemini-flash-2.5 чтоб он мне большие тексты разбивал на чанки по 800-1000 символов, озвучивал, сшивал и присылал готовый файл, на гугл колабе запускаю. Работает очень неровно, через Vertex AI, руками эти чанки озвучивать пока лучше получается, хоть и геморно. Но у гугла много ограничений встроено, он все тексты проверяет похоже, на соотвествие своей политике, чтобы без какого-либо намека на насилие и острые темы. Так что у меня половина книги заменялось тишиной или писком
google ai studio дает маленькие лимиты на голосовые вроде?
да, в студии https://aistudio.google.com/generate-speech там либо вообще генерация не срабатывает на больших текстах, либо после примерно 1-1,5 минуты начинается жесть по звуку. Но есть Vertex AI - через него и дешевле и стабильнее работает, собственно автоматизацию я через его api сделал. Но опять же через клиент по ссылке максимум 2к символов влезает примерно
https://console.cloud.google.com/vertex-ai/studio/media/speech
Вообще у гугла довольно жирная документация по этому вопросу, есть еще способы через бакет работать, но там ожидание в пару часов, не риалтайм, и я сам не тестил
https://docs.cloud.google.com/text-to-speech/docs/create-audio-text-long-audio-synthesis
https://github.com/DeXP/EbookTalker автор тут на хабре есть.
Вручную дозапустил python/python.exe -m pip install sox, в остальном инсталлер сработал, спасибо!

Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия