Конструктивное использование DeepFake технологии / Хабр

Что такое DeepFake

Технология deepfake – это методика синтеза аудио или видео с использованием генеративно-состязательных нейронных сетей. Впервые такая нейросеть была создана в 2014 году студентом Стэндфордского университета Яном Гудфеллоу. Он автоматизировал процесс обучения двух нейронных сетей, когда одна из них генерирует лица или голоса, а другая анализирует поученные результаты и даёт заключение: похожи они на оригинал, или нет. Технологию можно сравнить с работой художника, который копирует картины известных мастеров, а эксперт пытается выявить такую подделку. Не достаточно просто скопировать изображение, сохранить размеры и пропорции, а требуется повторить мельчайшие детали: технику нанесения краски, её состав, наличие повреждений на холсте и, при наличии, подпись автора. Когда эксперт обнаруживает подделку – об этом сообщается копирующему, который переделывает свою работу, предлагая более качественный вариант подделки. Аналогично нейросети обучают друг друга до тех пор, пока вторая нейросеть примет сгенерированные изображения за реальные. После того, как эксперт не сможет отличить оригинал от копии начинается процесс изготовления более сложных подделок, а именно – создание того, что никогда ранее не существовало. Визуальное представление состязательного обучения двух нейронных сетей подготовила компания OpenAI.

Можно ли распознать Fake видео

С распространением deepfake возникла опасность дискредитации любого человека, запись голоса или фото которого есть в сети. Первой жертвой этой атаки была актриса Галь Гадот. Это стало началом серии атак на представительниц прекрасного пола, вставляя их образы в порно ролики. Следующая волна deepfake атак была направлена на политических лидеров: Барака Обамы, Дональда Трампа, Нэнси Пелоси, Ричарда Никсона и других.

В первый момент deepfake видео выглядят весьма убедительно, но далеко не все они могут обмануть экспертов и специальные алгоритмы.

Один из способов распознания deepfake предложили учёные из Университета штата Нью-Йорк в Олбани. Они провели исследование, в результате которого выявили, что люди в спокойном состояние моргают в среднем 15-17 раз в минуту. Частота моргания увеличивается во время разговора, и падает во время чтения. Для генерации более достоверных результатов, алгоритмы выявления подделок должны учитывать множество различных параметров, в том числе физиологические особенности человека. Это потребует усложнения систем производства качественных deepfake. Со временем, алгоритмы повысят качество генерируемых подделок и решения по их выявлению. Рано или поздно выявление отклонения мельчайших деталей станет нормой для распознавания сгенерированных видеороликов. Уже сейчас алгоритмы могут анализировать движение глаз, изменение размера зрачка или частоту дыхания и сердцебиения.

Проработаны решения биометрической идентификации человека по его персональным физиологическим особенностям, например, перемещения взгляда во время чтения. Многие политики и официальные лица, выступая публично читают заранее подготовленный текст. Наблюдая за движением их глаз, морганием и другими индивидуальными особенностями можно определить, какие из записей являются реальными, а какие – поддельные.

Компании Facebook и Microsoft подвели итоги Deepfake Detection Challenge — конкурса для разработчиков, который направлен на создание решений для борьбы с технологиями подмены лиц на видео. В конкурсе приняли участие 2114 разработчиков, которые создали более 35 тысяч моделей. Оценка эффективности алгоритмов проводилась двумя способами: в первом использовался заранее предоставленный разработчикам тестовый датасет, а во втором — закрытый и усложненный (в нем использовались видео с бегущими строками, фильтрами и актерами, которые частично прикрывали лицо). Согласно турнирной таблице на Kaggle победил белорусский разработчик Селим Сефербеков из компании Mapbox: его алгоритм смог определить дипфейки с точностью 65,18%. На третьем месте, с результатом ненамного хуже, оказалась российская Ntech Lab, которая специализируется на создании алгоритмов распознавания лиц.

Где DeepFake может оказаться полезным

Дипфейки воспринимаются как нечто негативное, вводящее в заблуждение для обмана и компрометации. Однако в некоторых случаях эта технология может оказаться незаменимым помощником.

1. Реклама

Несмотря на то что технология deepfake — сравнительно новый медиаинструмент, она может кардинально изменить сферу видеопродакшена. При выборе актёра для рекламного ролика важным фактором является его узнаваемость. В случае съёмки известного актёра существенную часть стоимости ролика будет составлять его гонорар.

Перед демонстрацией рекламы в разных странах её дублируют национальные дикторы, что не лучшим образом сказывается на узнаваемости образа. В совместной работе Ridley Scott Associates и Synthesia для озвучивания рекламного антималярийного ролика с Дэвидом Бекхэмом на девяти языках была использована технология deepfake.

При полноценной генерации голоса и изображения не потребуется надолго отрывать героя рекламы от его профессиональной деятельности, что позволит сократить значительную часть бюджета.

Но непосредственная съёмка человека или использование его видеообраза, сгенерированного для рекламы, требуют получения персонального согласия участника. Для сокращения зависимости рекламы от конкретного актёра компания KFC приняла решение использовать искусственно сгенерированный образ виртуального полковника Сандерса.

Компьютерные технологии позволяют одновременно генерировать и записывать несколько рекламных роликов, что повышает эффективность использования оборудования. Решения deepfake станут привычным инструментом при создании рекламы, когда стоимость их применения не будет превышать гонорара снимающихся артистов.

Один из новых способов привлечения внимания к рекламе – это непосредственное интерактивное взаимодействие с пользователем.

Косметическая марка Vivienne Sabó стала первой в России, кто запустил digital-кампанию с использованием технологии замены лиц. Это инновационная технология, которая позволит каждой девушке ощутить себя звездой Кабаре и поделиться с друзьями впечатляющим видео. И совсем недавно, эта компания предложила пользователям новый рекламный ролик с использованием технологии замены лиц. На этот раз участникам предлагается получить персональное предсказание с собой в главной роли.

2. Роботы и виртуальные консультанты

Уже используются виртуальные ведущие на телевидение Xin Xiaowei. Следующим шагом будет создание виртуального консультанта, для которого генерируется в реальном времени не только текст, но и голос.

Набирать вручную большой объём текста — неудобно и долго. Особенно это не любит делать молодёжь. Симбиоз искусственного интеллекта, ведущего осмысленную беседу, и сгенерированного изображения «рекламного лица компании» позволит создать инновационного виртуального консультанта.

Можно добавить к этому биометрическую идентификацию собеседника (по лицу, голосу или радужке), и виртуальный консультант, узнав вас, продолжит прерванную беседу. Интеграция deepfake с биометрическими технологиями позволит создать сквозное омниканальное решение для поддержки пользователей. Начав общение по телефону, в мобильном приложении или на сайте, вы сможете завершить беседу при личной встрече с интеллектуальным роботом.

Такие роботы уже создаются. Пока они не полностью копируют исходный образ, поведение, мимику и речь. Но недавно СМИ сообщили, что актер Арнольд Шварценеггер подал в суд на российскую компанию Promobot за то, что та создала робота-двойника с его лицом.

Робот имитирует внешность своего прототипа. Он может двигать глазами, бровями, губами, шеей и воспроизводить более 600 вариантов микромимики человека. Также он может поддерживать разговор.

Для создания робота компания запатентовала собственную конструкцию лица, а также придумала свою технологию изготовления искусственной кожи. До создания настоящего терминатора остался один шаг — объединить данную технологию с экзоскелетом.

3. Индустрия игр

Эта технология не может обойти стороной и индустрию компьютерных игр. Благодаря deepfake в игре может быть полностью воспроизведён наш образ и голос. А среди других участников игры мы станем узнавать наших друзей.

В современных играх мы сталкиваемся с абстрактным противником. Придав конкретному игроку индивидуальный образ с помощью deepfake, мы сможем отличать одного противника от другого. Мы станем узнавать их по шагам и голосу, оценивать опасность по их интонации, угадывать их поведение. Технология виртуальной реальности окончательно сотрёт границу между игрой и реальным миром. Новый импульс развития получит киберспорт — он станет более реалистичным и захватывающим.

В индустрии игр всегда использовались передовые разработки. Не случайно термин «игровой компьютер» подразумевает мощную вычислительную систему. Развитие deepfake для игр сформирует базовые алгоритмы, которые будут использованы в других областях нашей жизни.

4. Кино

В 2001 году Джеймс Кэмерон работал над экранизацией фильма об инопланетянах по роману писательницы Патрисии Энтони под названием «Братец Термит». В этом фильме инопланетяне должны были в реальном времени общаться с людьми. К сожалению, работа над фильмом вскоре была прекращена, но за это время Кэмерон успел опробовать технологию переноса реальных человеческих эмоций на анимированного персонажа.

Видеокамера отслеживала перемещение точек, нанесенных на лицо человека, и наделяла получившейся мимикой лицо нарисованного пришельца. Позже усовершенствованная технология была использована при съёмке фильма «Аватар».

Компьютерные алгоритмы с того времени сильно изменились. Теперь для переноса эмоций и других действий героев не требуется наносить опорные точки, а весь процесс генерации видео сократился с нескольких месяцев до нескольких дней.

Использование deepfake позволит изменить подход к проведению кастинга. Современные технологии позволяют не только копировать действия и эмоции реального актёра, но и генерировать их самостоятельно. Например, создатели боевика о войне во Вьетнаме «В поисках Джека» рассматривают возможность вернуть на экраны культового голливудского актера Джеймса Дина, который погиб в 1955 году. Джеймса решили воссоздать с помощью компьютерной графики, а от семьи Дина были получены права на использование его образа в фильме.

Ещё один пример — создание фильма «Форсаж 7». Съёмки начались в сентябре 2013 года. Было отснято достаточно много материала, когда 30 ноября в автокатастрофе трагически погиб Пол Уокер, исполнитель роли Брайана О’Коннера. Выбор у продюсеров был ограничен: или закрывать картину, или что-то придумать. В марте было принято решение, что Уокера воспроизведут в некоторых эпизодах с помощью компьютерной графики, а в других — с помощью дублёров.

Важным моментом в фильме является звуковое сопровождение. Артиста в фильм приглашают не только за его внешность. Незабываемый колорит фильмам придавали голоса Папанова, Леонова, Янковского и других актёров. К сожалению, не всегда получается качественно выполнить дублирование фильма. Отличается текст, тембр и интонация голоса, не соответствуют мимические движения.

Используя технологию deepfake, как и в случае с рекламой, фильм можно скомпилировать с учётом не только языковых, но и национальных особенностей для разных стран. По счастью, современные deepfake-технологии позволяют это сделать с помощью умных алгоритмов.

Весь мир несётся в виртуальное пространство. Исчезает зависимость от капризов исполнителей главных ролей. Ни один из актёров не подходит на роль? Не беда — создадим виртуального героя согласно видению режиссёра.

Алгоритмы deepfake осуществляют переворот в киноиндустрии. При должном уровне развития технологии можно будет сгенерировать всех актеров, необходимых для фильма. При этом, если нет копирования конкретного актера, а создаётся новый образ со своим уникальным голосом и мимикой, необходимость в актерах пропадает. Исчезают баснословные гонорары, а киноиндустрия полностью оцифровывается и переходит к выпуску интерактивных анимационных фильмов, где сюжетная линия меняется в зависимости от реакции зрителей.

В этой новой реальности посещение театра с реальными актёрами станет чем-то эксклюзивным, как и вещи ручной работы.

5. Политика

Политику считают грязным делом. Это нашло отражение в первых политических рекламных роликах deepfake, которые имели оскорбительное или компрометирующее содержание. Но ситуация меняется, и технология deepfake начинает использоваться не для компрометации, а для агитации и привлечения политических сторонников. За день до выборов в Законодательное собрание Дели, 7 февраля 2020 года, были распространены две видеозаписи с президентом Партии Бхаратия Джаната (БДП) Маноджа Тивари. Для предвыборной агитации индийский политик использовал технологию deepfake. На записи Тивари на языке хинди, диалекте хариани, призывает не голосовать за конкурирующую партию. Запись распространили в 5 800 чатах WhatsApp, а сам ролик просмотрело более 15 миллионов человек.
Другой текст ролика был записан на английском языке. Соратники Тивари по партии положительно оценили реакцию на эти видео: «Домохозяйки в группе сказали, что им было радостно наблюдать, как наш лидер говорит на их языке». Другую оценку дал Пратик Синха, основатель AltNews, индийского веб-сайта, который проверяет публикации, сделанные в социальных сетях. Синха не смог определить, что видео Тивари было подделкой: «Это опасно. Впервые я увидел что-то подобное в Индии». В тоже время Синха считает, что, в отличие от США, запрет использования поддельных видеороликов с участием политиков не будет работать в Индии.

Юридически будет сложно опротестовать такое использование deepfake технологии в политических целях, так как видео генерируется с согласия лица, образ которого используется в ролике, а использованный в нём текст – заранее согласован.

Как получить максимум

Deepfake, как и другие технологии, можно использовать как в деструктивных, так и в созидательных целях. Применение дипфейков в рекламе и киноиндустрии уже продемонстрировало большие возможности в этих направлениях.

На данный момент широкое применение дипфейков сдерживается двумя факторами: недостаточным совершенством алгоритмов и высокой стоимостью конечного продукта. Но развитие индустрии развлечений позволит вывести deepfake на массовый рынок, что улучшит эти два показателя.

Пример такой реализации демонстрируют южнокорейские специалисты, подарившие безутешной матери возможность «пообщаться» с погибшей дочерью при помощи виртуальной реальности. На создание цифровой копии девочки им потребовалось восемь месяцев. Этический вопрос о том, как такие разработки влияют на психику людей, выходит за рамки данной статьи.

Развитие deepfake-технологий идёт очень быстро. Точность генерируемых данных улучшается. Алгоритмы выявления обмана совершенствуются. Законодательное регулирование использования дипфейков становятся строже. Но те фантастические возможности, которые предоставляет эта технология, найдут широкое применение в нашей жизни. Надо только сконцентрироваться на их конструктивном применении и заменить негативно воспринимаемое название deepfake на новое — например, deepsynthesis.

В ближайшие три года можно ожидать появления многих компаний, которые будут оказывать услуги по генерации окружающего нас пространства. Эксперты уверены, что рынок коммерческого применения deepfake будет расти, и это хороший стимул для разработки решений с использованием этой технологии.

Оригинал статьи на сайте rb.ru