Comments 16
а какую сетку посоветуете для оффлайн генерации аудио ?
такую чтобы можно было как https://github.com/snakers4/silero-models запускать?
Мало того, что манера речи заложена в генетике индивида, а обучение только шлифует эту манеру, но не может изменить её коренным образом. Так еще существует "социальный заказ" определенных групп общества на то, "как надо преподнести/озвучить" тот или иной текст. И чо делать?
Может, не стоит очеловечивать машинный голос, а, наоборот, придать ему специфический и легко узнаваемый оттенок.
Кстати, аналогичная проблема с электромобилями - их не слышно. Приходиться ставить какую-то систему, которая в меру имитирует работу мотора, создает некий шум, чтобы люди могли легко по звуку опознать наличие движущего средства (электромобиля) поблизости.
Это везде так - люди создают определенную одежду (униформу), чтобы окружающим была видна их общественная роль в обществе. Придумывают отличительные знаки, удостоверения, паспорта, ну и так далее, вплоть до "индивидуального художественного стиля у каждого писателя, актера ...".
манера речи заложена в генетике индивида, а обучение только шлифует эту манеру
Часто мои высказывания понимают прямолинейно. Но я имел ввиду глобальную зависимость.
Вот как пример, водителя автомобиля можно обучить всем категориям вождения и даже сделать его первоклассным гонщиком. Но на грузовике он будет ездить как на грузовике.
Так и в данном случае. Если у человека где-то в нейронных связях центра Брока есть пара лишних нейронных звеньев, то он будет всегда делать, на несколько миллисекунд, чуть больше паузу между фонемами и избавиться от этого он не сможет. Ну, генетика такая. Другое дело, что это может быть незаметно большинству. Вот это я и имел ввиду, что индивидуальное тонкости инструментального (и генетического) характера делают речь уникальной для каждого индивида. И может быть и не надо маскировать речь робота под человеческую, а, наоборот, сделать её уникальной настолько., что человеку подделать такое будет невозможно. (?)
Хотя, я помню одного своего сотрудника, который голосом имитировал DTMF и ему была не нужна клавиатура телефона - он голосом набирал номер..
Прямо пел сразу на двух частотах? Обертональное пение - редкая способность, да еще и с кучей ограничений
Вот именно! Когда работали на междугородной телефонной станции (проводили испытания нашей аппаратуры) он это демонстрировал сотрудникам. Конечно, звук, который он издавал, на слух не был чистым двутоновым, но декодер DTMF его правильно определял. Кстати, этот инженер как раз с кодеками работал, это было по его части.
Ну так генетика обуславливает, как минимум, строение речевого аппарата, связок, голосовой щели, конфигурации прочих полостей, нёба, форму языка, например, губ, а также иннервацию всего этого дела, количество и распределение мышечной ткани, да и в целом — темперамент, строение мозга индивида. Всё это будет стопудово иметь вклад в манеру речи.
Впечатлился TTS-песней. Каким языком разметки можно управлять просодией так, чтобы получилась песня? SSML вроде так не может.
Что-то Ленин у вас не картавит. Слухи ходят, что Ленин у вас ненастоящий!
Вторая демка "Elena - Что день грядущий мне готовит" - это запись диктора или результат синтеза?
А не подскажите из откртых датасетов что-то хорошее на русском и анг.
И еще, на слух у вас дорожки достаточно чистые в примерах, вы как то звук предобрабатывали исходный датасет, может убирали шумные записи?
Спасибо, Дарима, очень познавательная статья!
Скажите, качество синтеза просодии зависит от разнообразия материала для обучения? я имею ввиду то, что синтезированный голос Ленина оказался не очень качественным и совершенно не похожим на оригинал. Интересно, на каких образцах проходило обучение.
Есть ли уже платформы или приложения для синтеза речи с управлением просодией? Скажем, мы даём сетке конкретные образцы определённого голоса, она синтезирует качественный машинный эквивалент с хорошо узнаваемыми интонациями.
В широкоизвестном в узких кругах проекте "ПластаМир" создавались песни, в которых все тексты исполнялись AI. Качество было гораздо выше представленных здесь образцов, хотя на начальном этапе предполагалось озвучку купить. Но в результате оказалось, что если взять голоса Татьяны (Amazon), Светланы, Дарьи, Дмитрия (Microsoft) и озвучить в wav через предоставленные вендорами API, а затем сверху обработать VST-плагином Accusonus Voice Changer и наложить ревер, то результат неотличим от нормального человеческого голоса. Плюс ко всему такой голос прекрасно ложится в микс, в отличии от живого исполнителя. И это совершенно бесплатно (не считая VST-плагина), без подписок и SMS)))
Как управлять просодией в синтезе речи