Pull to refresh

Comments 24

Кому пригодится

Создателям контента — озвучка роликов, подкастов, стримов.

Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.

Аудиокнигам — разные голоса для персонажей.

Автоматизации — голосовые уведомления, IVR-системы, ассистенты.

И не только...

Мама, я попал в аварию!

Присоединяюсь. В списке пользователей нет главного пункта: Мошенники

20гб места чтобы можно было медленно озвучивать небольшие тексты - сомнительно.

У меня 3080ti пару строк текста озвучивает минуты 2. Средненькое качество (интонации часто не в тему или вообще меняются). Разве что для коротких фраз подойдёт. Но работает без интернета, когда всё докачается.

За старания - спасибо.

20 гб - все модели, все вам в итоге не нужны будут, а так модели по 3 гига. И окружение еще гигов 7-10.

я скачал архив, запустил install.bat, потом run.bat - у меня заняло 3+ гига на диске C (видимо питон и что-то ещё, в общем совсем не portable версия) и 10+ гигов на том диске, куда я скачал. Затем в самой программе я просто перешёл во вторую вкладку, где клонирование голоса - и у меня ещё скачалось 5гб. Без всяких подтверждений-запросов. В фоне. Я никакие модели отдельно не качал.

Заметил, что ударения не всегда правильно расставляются. Это исправляется какими-то словарями?

я решил провести эксперимент и попробовал указать ударение в этой модели

сработало: zamək или zaˈmok?

не сработало:

  • зАмок или замОк?

  • з+амок или зам+ок?

  • з^aмок или зам^ок?

  • за́мок или замо́к?

  • <phoneme alphabet="ipa" ph="ˈzamək">замок</phoneme> или <phoneme alphabet="ipa" ph="zaˈmok">замок</phoneme>?

  • з'амок или зам'ок?

  • з!aмок или зам!ок?

  • заммок или замоок?

Что с коммерческим использованием готовых или склонированных голосов (если автор голоса не против)? Можно использовать результат генерации в рекламе, фильме, игре и т.п.?

Думаю, китайцев этот вопрос заботит меньше всего. Отношение к интеллектуальной собственности у них весьма специфическое...

это вы так думаете, к своей вполне трепетное. недавно была другая модель кажется от qwen - переводчик, свободно деньги зарабатывать не разрешают

Вопрос про лицензию, думаю автор, продвигающий это дело наверняка изучил, потому и интересно)

Потому что в том же Steam могут потребовать - "вы явно пользовались генеративкой, дайте ссылку на лицензию сервиса или вашего договора с ним, что он позволяет коммерческое использование". В посте есть "создателям игр", так что вопрос непраздный. Если лицензия неясная - проще не пользоваться, потому что быть забаненным в ключевом магазине было бы обидно.

У них на Github написано: All our open-weight models are licensed under Apache 2.0.
Хотя на результат генерации это не распространяется, но запретительного ничего тоже не вижу.

А есть режим "взять образец голоса с записи 1 и наложить его на запись 2"? Эти все TTS заведомо мертворождены, поскольку даже самая продвинутая TTS-модель видит только и исключительно текст, без возможности указать реальные нюансы интонации, звуки, не являющиеся словами (мычание во время обдумывания) и так далее

Человек, читающий вслух, тоже видит только и исключительно текст. Так что для подделки голоса и манеры говорить конкретного человека оно может (пока) и не сильно пригодно, но есть огромная сфера применений, где подделывать никого конкретного не нужно.

Большое спасибо автору за проделанную работу!
Я часто использую такие инструменты для озвучивания различных событий. Раньше часто использовал Fish speech. Сейчас очень хочу протестировать этот инструмент.

Добавлю:
Работает отлично, генерирует довольно быстро. При клонировании голоса, столкнулся с тем, что не хватает ffmpeg (Для работы с .mp3, .ogg, .flac и т.д. ). Поставил и все заработало.

У меня пара вопросов. Или пожеланий.

Как озвучить несколько больших кусков текста. В идеале книгу в формате FB2.

Как выгрузить несколькими мр3 файлами озвученный текст? В идеале получить несколько мр3 по главам книги.

И конечно как делать это в автомате. Закинул книгу, получил папку с МР3.

по идее, написать свой скрипт или бота, который это все сделает. я сам в целом нуб, но недавно навайбкодил такое для озвучки с помощью гугловского api на базе gemini-flash-2.5 чтоб он мне большие тексты разбивал на чанки по 800-1000 символов, озвучивал, сшивал и присылал готовый файл, на гугл колабе запускаю. Работает очень неровно, через Vertex AI, руками эти чанки озвучивать пока лучше получается, хоть и геморно. Но у гугла много ограничений встроено, он все тексты проверяет похоже, на соотвествие своей политике, чтобы без какого-либо намека на насилие и острые темы. Так что у меня половина книги заменялось тишиной или писком

google ai studio дает маленькие лимиты на голосовые вроде?

да, в студии https://aistudio.google.com/generate-speech там либо вообще генерация не срабатывает на больших текстах, либо после примерно 1-1,5 минуты начинается жесть по звуку. Но есть Vertex AI - через него и дешевле и стабильнее работает, собственно автоматизацию я через его api сделал. Но опять же через клиент по ссылке максимум 2к символов влезает примерно
https://console.cloud.google.com/vertex-ai/studio/media/speech

Вручную дозапустил python/python.exe -m pip install sox, в остальном инсталлер сработал, спасибо!

Sign up to leave a comment.

Articles