Комментарии 11
Следующим шагом надо натренировать сеть на записях речей Гитлера и послушать каким будет прогноз погоды в Житомире в начале июля.
"В отдельных районах Житомира температуры до +20000 градусов, возможны радиоактивные осадки"?
Начинать надо с классики жанра: все технологии обкатываются на порно. Там и фразы короткие и можно послушать интонацию. ))
Хех, сначала отказались от спектрограмм в пользу waveform, а теперь от звуковой волны обратно к спектрограммам, причем к классической голосовой mel-спектрограмме, судя по названию. И каждый раз преподносится, что такой входной формат подходит намного лучше, чем предыдущий. Ну-ну.
Дело в чем-то другом. В архитектуре сети, вычислительной мощности или в датасете.
Дело в чем-то другом. В архитектуре сети, вычислительной мощности или в датасете.
Пелевин, да?)
Интернет-издания отмечают также и потенциал для нелегального применения MelNet, ведь генерация голоса конкретного человека позволяет фальсифицировать любое высказывание в его исполнении.
Ждём появления тулов для генерации коротких роликов с произвольным человеком, который говорит в камеру «я согласен взять этот кредит в вашем банке»?
Сделали бы наконец не генерацию, а стилизацию одного голоса в другой, отлично бы взлетело в дип-фейках и подхватилось сообществом.
Где то тут рядом идентификация по голосу в банкоматах Сбербанка
… а в это время некоторые банки (не буду показывать пальцем) собираются ввести аутентификацию по голосу…
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Нейросеть Facebook заговорила голосом Билла Гейтса