Кто занимается дипфейк-аудио и зачем это нужно

    С начала года появилось сразу несколько новых систем ИИ, способных синтезировать видеозапись с говорящим человеком на основе аудио. Расскажем, кто и с какой целью занимается подобными разработками. Также поговорим о других инструментах, позволяющих редактировать аудиозаписи.


    Фото Erik-Jan Leusink / Unsplash

    Что делают


    В декабре 2019-го специалисты из Мюнхенского технического университета и Института информатики Общества Макса Планка опубликовали научную работу, посвященную системе Neural Voice Puppetry.

    Для генерации видеозаписи ей нужен лишь аудиофайл с голосом человека и его фотография. Процесс состоит из трех этапов. Сперва рекуррентная нейросеть анализирует речь на записи и строит логит-модель, отражающую особенности произношения спикера. Она направляется в обобщающую нейронную сеть, которая рассчитывает коэффициенты для построения трехмерной модели лица. Далее, в дело вступает рендер-модуль, который генерирует финальную запись.

    Разработчики говорят, что Neural Voice Puppetry воспроизводит ролики высокого качества, однако им еще предстоит решить некоторые проблемы, связанные с синхронизацией звука.

    Аналогичную технологию разрабатывают инженеры из Наньянского университета в Сингапуре. Их система позволяет объединить запись речи одного человека с видеозаписью другого. Первым делом она формирует 3D-модель лица для каждого кадра на целевом видео. Далее, нейросеть анализирует ключевые мимические точки, и модифицирует трехмерную модель так, чтобы её выражения совпадали с фонемами исходного аудиофайла. По словам авторов, их инструмент превосходит по качеству аналоги. Во время слепых тестов респонденты пометили 55% записей как «настоящие».

    Где применяют


    В будущем дипфейки позволят создавать реалистичные видеоаватары — личности для голосовых ассистентов. В 2017 году энтузиаст Джарем Арчер (Jarem Archer) реализовал помощника Cortana из ОС Windows 10 в виде голограммы. Системы искусственного интеллекта для формирования дипфейков переведут подобные решения на новый уровень. Еще одна область применения таких алгоритмов — игровая индустрия. Генерация лицевой анимации по звуковой дорожке упростит работу гейм-дизайнеров, настраивающих мимику виртуальных персонажей.

    Разработчики дипфейк-технологий отмечают, что их системы лишь инструмент. И к сожалению, его неизбежно будут использовать в противозаконных целях. Первое такое преступление было совершено в 2019 году. Директор английской энергетической компании перевел 240 тыс. долларов мошеннику. Тот сымитировал голос главы концерна из Германии с помощью нейронных сетей и попросил совершить транзакцию. Поэтому специалисты из университетов активно работают с правоохранительными органами и политиками, чтобы предотвращать подобные ситуации. Например, Колорадский университет в Денвере разрабатывает инструменты для распознавания поддельных аудио и видеозаписей. В будущем подобных проектов будет становиться только больше.

    Какие еще есть проекты


    Есть инструменты, которые позволяют редактировать аудиозаписи также легко как обыкновенный текст. Например, Descript предлагает аудиоредактор, который транскрибирует слова спикера и позволяет отредактировать их в текстовом виде. Можно добавить паузы, переставить фрагменты местами — все правки синхронизируются с аудиозаписью. Разработчики говорят, что система обрабатывает файлы в .m4a, .mp3, .aiff, .aac и .wav, а точность транскрибирования превышает 93%.


    Фото Yohann LIBOT / Unsplash

    В одно время с Descript появились и другие проекты. Инженеры из университета в Принстоне представили «фотошоп для аудио» — систему VoCo. Она позволяет не только редактировать записи в текстовом виде, но и синтезировать фразы голосом спикера (с учетом интонаций).

    В будущем такие сервисы пригодятся журналистам и медиакомпаниям, создающим аудиоконтент. Также они помогут людям со специфическими заболеваниями, которые общаются с помощью систем речевого синтеза. VoCo и аналоги сделают их голос менее «роботизированным».



    Дополнительное чтение в нашем блоге «Мир Hi-Fi»:

    «Стервозная Бетти» и аудиоинтерфейсы: почему они говорят женским голосом
    Аудиоинтерфейсы: звук как источник информации на дороге, в офисе и в небе
    Первый в мире «гендерно-нейтральный» голосовой помощник
    История синтезаторов речи: первые механические установки
    Как синтез речи появился на ПК


    Аудиомания
    Одна из крупнейших Hi-Fi, High End компаний в СНГ

    Комментарии 6

      –1
      Угу и толпы гиков будут радоваться прогрессу. А одиночные голоса тех, к матерям которых, позвонили и голосом сына попросили перевести все деньги, утонут в хоре голосов, кричащих «ну прогресс же, всегда найдутся те, кто используют прогресс во зло»
        +1
        это можно сказать про любую технологию
          0
          Этот способ мошенничества широко распространился, когда мобильные пришли в народ. Всегда найдутся те, кто использует прогресс во зло.
            +1
            Исходя из вашей логики, виноваты телефоны, потому что могут позвонить, и электронные переводы денег, потому что могут попросить перевести все деньги.
              0
              Так откажитесь от интернета, ведь через него переписываются террористы и отправляются анонимные угрозы. Да и людей через него тоже обманывают.
              0
              Простор для творчества и бесконечные миллиарды для лейблов и правообладателей.
              Представьте, что безымянный Вася или Джон, работающий на лейбл, сочиняет песню, которую исполняет: Паваротти, Кобейн, Вертинский, Джексон, — любой знаменитый голос/певец.
              А актерами и видео — то же самое. Ведь уже и так для развлечения свои лица вставляют вместо лиц актеров в кино в пару нажатий на смартфоне.

              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

              Самое читаемое