Конструктивное использование DeepFake технологии

    Что такое DeepFake


    Технология deepfake – это методика синтеза аудио или видео с использованием генеративно-состязательных нейронных сетей. Впервые такая нейросеть была создана в 2014 году студентом Стэндфордского университета Яном Гудфеллоу. Он автоматизировал процесс обучения двух нейронных сетей, когда одна из них генерирует лица или голоса, а другая анализирует поученные результаты и даёт заключение: похожи они на оригинал, или нет. Технологию можно сравнить с работой художника, который копирует картины известных мастеров, а эксперт пытается выявить такую подделку. Не достаточно просто скопировать изображение, сохранить размеры и пропорции, а требуется повторить мельчайшие детали: технику нанесения краски, её состав, наличие повреждений на холсте и, при наличии, подпись автора. Когда эксперт обнаруживает подделку – об этом сообщается копирующему, который переделывает свою работу, предлагая более качественный вариант подделки. Аналогично нейросети обучают друг друга до тех пор, пока вторая нейросеть примет сгенерированные изображения за реальные. После того, как эксперт не сможет отличить оригинал от копии начинается процесс изготовления более сложных подделок, а именно – создание того, что никогда ранее не существовало. Визуальное представление состязательного обучения двух нейронных сетей подготовила компания OpenAI.

    Можно ли распознать Fake видео


    С распространением deepfake возникла опасность дискредитации любого человека, запись голоса или фото которого есть в сети. Первой жертвой этой атаки была актриса Галь Гадот. Это стало началом серии атак на представительниц прекрасного пола, вставляя их образы в порно ролики. Следующая волна deepfake атак была направлена на политических лидеров: Барака Обамы, Дональда Трампа, Нэнси Пелоси, Ричарда Никсона и других.

    В первый момент deepfake видео выглядят весьма убедительно, но далеко не все они могут обмануть экспертов и специальные алгоритмы.

    Один из способов распознания deepfake предложили учёные из Университета штата Нью-Йорк в Олбани. Они провели исследование, в результате которого выявили, что люди в спокойном состояние моргают в среднем 15-17 раз в минуту. Частота моргания увеличивается во время разговора, и падает во время чтения. Для генерации более достоверных результатов, алгоритмы выявления подделок должны учитывать множество различных параметров, в том числе физиологические особенности человека. Это потребует усложнения систем производства качественных deepfake. Со временем, алгоритмы повысят качество генерируемых подделок и решения по их выявлению. Рано или поздно выявление отклонения мельчайших деталей станет нормой для распознавания сгенерированных видеороликов. Уже сейчас алгоритмы могут анализировать движение глаз, изменение размера зрачка или частоту дыхания и сердцебиения.

    Проработаны решения биометрической идентификации человека по его персональным физиологическим особенностям, например, перемещения взгляда во время чтения. Многие политики и официальные лица, выступая публично читают заранее подготовленный текст. Наблюдая за движением их глаз, морганием и другими индивидуальными особенностями можно определить, какие из записей являются реальными, а какие – поддельные.
    Компании Facebook и Microsoft подвели итоги Deepfake Detection Challenge — конкурса для разработчиков, который направлен на создание решений для борьбы с технологиями подмены лиц на видео. В конкурсе приняли участие 2114 разработчиков, которые создали более 35 тысяч моделей. Оценка эффективности алгоритмов проводилась двумя способами: в первом использовался заранее предоставленный разработчикам тестовый датасет, а во втором — закрытый и усложненный (в нем использовались видео с бегущими строками, фильтрами и актерами, которые частично прикрывали лицо). Согласно турнирной таблице на Kaggle победил белорусский разработчик Селим Сефербеков из компании Mapbox: его алгоритм смог определить дипфейки с точностью 65,18%. На третьем месте, с результатом ненамного хуже, оказалась российская Ntech Lab, которая специализируется на создании алгоритмов распознавания лиц.

    Где DeepFake может оказаться полезным


    Дипфейки воспринимаются как нечто негативное, вводящее в заблуждение для обмана и компрометации. Однако в некоторых случаях эта технология может оказаться незаменимым помощником.

    image

    1. Реклама


    Несмотря на то что технология deepfake — сравнительно новый медиаинструмент, она может кардинально изменить сферу видеопродакшена. При выборе актёра для рекламного ролика важным фактором является его узнаваемость. В случае съёмки известного актёра существенную часть стоимости ролика будет составлять его гонорар.

    Перед демонстрацией рекламы в разных странах её дублируют национальные дикторы, что не лучшим образом сказывается на узнаваемости образа. В совместной работе Ridley Scott Associates и Synthesia для озвучивания рекламного антималярийного ролика с Дэвидом Бекхэмом на девяти языках была использована технология deepfake.
    При полноценной генерации голоса и изображения не потребуется надолго отрывать героя рекламы от его профессиональной деятельности, что позволит сократить значительную часть бюджета.
    Но непосредственная съёмка человека или использование его видеообраза, сгенерированного для рекламы, требуют получения персонального согласия участника. Для сокращения зависимости рекламы от конкретного актёра компания KFC приняла решение использовать искусственно сгенерированный образ виртуального полковника Сандерса.

    Компьютерные технологии позволяют одновременно генерировать и записывать несколько рекламных роликов, что повышает эффективность использования оборудования. Решения deepfake станут привычным инструментом при создании рекламы, когда стоимость их применения не будет превышать гонорара снимающихся артистов.
    Один из новых способов привлечения внимания к рекламе – это непосредственное интерактивное взаимодействие с пользователем.
    Косметическая марка Vivienne Sabó стала первой в России, кто запустил digital-кампанию с использованием технологии замены лиц. Это инновационная технология, которая позволит каждой девушке ощутить себя звездой Кабаре и поделиться с друзьями впечатляющим видео. И совсем недавно, эта компания предложила пользователям новый рекламный ролик с использованием технологии замены лиц. На этот раз участникам предлагается получить персональное предсказание с собой в главной роли.

    image

    2. Роботы и виртуальные консультанты


    Уже используются виртуальные ведущие на телевидение Xin Xiaowei. Следующим шагом будет создание виртуального консультанта, для которого генерируется в реальном времени не только текст, но и голос.

    Набирать вручную большой объём текста — неудобно и долго. Особенно это не любит делать молодёжь. Симбиоз искусственного интеллекта, ведущего осмысленную беседу, и сгенерированного изображения «рекламного лица компании» позволит создать инновационного виртуального консультанта.

    Можно добавить к этому биометрическую идентификацию собеседника (по лицу, голосу или радужке), и виртуальный консультант, узнав вас, продолжит прерванную беседу. Интеграция deepfake с биометрическими технологиями позволит создать сквозное омниканальное решение для поддержки пользователей. Начав общение по телефону, в мобильном приложении или на сайте, вы сможете завершить беседу при личной встрече с интеллектуальным роботом.
    Такие роботы уже создаются. Пока они не полностью копируют исходный образ, поведение, мимику и речь. Но недавно СМИ сообщили, что актер Арнольд Шварценеггер подал в суд на российскую компанию Promobot за то, что та создала робота-двойника с его лицом.
    Робот имитирует внешность своего прототипа. Он может двигать глазами, бровями, губами, шеей и воспроизводить более 600 вариантов микромимики человека. Также он может поддерживать разговор.

    Для создания робота компания запатентовала собственную конструкцию лица, а также придумала свою технологию изготовления искусственной кожи. До создания настоящего терминатора остался один шаг — объединить данную технологию с экзоскелетом.

    image

    3. Индустрия игр


    Эта технология не может обойти стороной и индустрию компьютерных игр. Благодаря deepfake в игре может быть полностью воспроизведён наш образ и голос. А среди других участников игры мы станем узнавать наших друзей.

    В современных играх мы сталкиваемся с абстрактным противником. Придав конкретному игроку индивидуальный образ с помощью deepfake, мы сможем отличать одного противника от другого. Мы станем узнавать их по шагам и голосу, оценивать опасность по их интонации, угадывать их поведение. Технология виртуальной реальности окончательно сотрёт границу между игрой и реальным миром. Новый импульс развития получит киберспорт — он станет более реалистичным и захватывающим.

    В индустрии игр всегда использовались передовые разработки. Не случайно термин «игровой компьютер» подразумевает мощную вычислительную систему. Развитие deepfake для игр сформирует базовые алгоритмы, которые будут использованы в других областях нашей жизни.

    image

    4. Кино


    В 2001 году Джеймс Кэмерон работал над экранизацией фильма об инопланетянах по роману писательницы Патрисии Энтони под названием «Братец Термит». В этом фильме инопланетяне должны были в реальном времени общаться с людьми. К сожалению, работа над фильмом вскоре была прекращена, но за это время Кэмерон успел опробовать технологию переноса реальных человеческих эмоций на анимированного персонажа.

    Видеокамера отслеживала перемещение точек, нанесенных на лицо человека, и наделяла получившейся мимикой лицо нарисованного пришельца. Позже усовершенствованная технология была использована при съёмке фильма «Аватар».
    Компьютерные алгоритмы с того времени сильно изменились. Теперь для переноса эмоций и других действий героев не требуется наносить опорные точки, а весь процесс генерации видео сократился с нескольких месяцев до нескольких дней.
    Использование deepfake позволит изменить подход к проведению кастинга. Современные технологии позволяют не только копировать действия и эмоции реального актёра, но и генерировать их самостоятельно. Например, создатели боевика о войне во Вьетнаме «В поисках Джека» рассматривают возможность вернуть на экраны культового голливудского актера Джеймса Дина, который погиб в 1955 году. Джеймса решили воссоздать с помощью компьютерной графики, а от семьи Дина были получены права на использование его образа в фильме.

    Ещё один пример — создание фильма «Форсаж 7». Съёмки начались в сентябре 2013 года. Было отснято достаточно много материала, когда 30 ноября в автокатастрофе трагически погиб Пол Уокер, исполнитель роли Брайана О’Коннера. Выбор у продюсеров был ограничен: или закрывать картину, или что-то придумать. В марте было принято решение, что Уокера воспроизведут в некоторых эпизодах с помощью компьютерной графики, а в других — с помощью дублёров.

    Важным моментом в фильме является звуковое сопровождение. Артиста в фильм приглашают не только за его внешность. Незабываемый колорит фильмам придавали голоса Папанова, Леонова, Янковского и других актёров. К сожалению, не всегда получается качественно выполнить дублирование фильма. Отличается текст, тембр и интонация голоса, не соответствуют мимические движения.
    Используя технологию deepfake, как и в случае с рекламой, фильм можно скомпилировать с учётом не только языковых, но и национальных особенностей для разных стран. По счастью, современные deepfake-технологии позволяют это сделать с помощью умных алгоритмов.
    Весь мир несётся в виртуальное пространство. Исчезает зависимость от капризов исполнителей главных ролей. Ни один из актёров не подходит на роль? Не беда — создадим виртуального героя согласно видению режиссёра.

    Алгоритмы deepfake осуществляют переворот в киноиндустрии. При должном уровне развития технологии можно будет сгенерировать всех актеров, необходимых для фильма. При этом, если нет копирования конкретного актера, а создаётся новый образ со своим уникальным голосом и мимикой, необходимость в актерах пропадает. Исчезают баснословные гонорары, а киноиндустрия полностью оцифровывается и переходит к выпуску интерактивных анимационных фильмов, где сюжетная линия меняется в зависимости от реакции зрителей.

    В этой новой реальности посещение театра с реальными актёрами станет чем-то эксклюзивным, как и вещи ручной работы.

    image

    5. Политика


    Политику считают грязным делом. Это нашло отражение в первых политических рекламных роликах deepfake, которые имели оскорбительное или компрометирующее содержание. Но ситуация меняется, и технология deepfake начинает использоваться не для компрометации, а для агитации и привлечения политических сторонников. За день до выборов в Законодательное собрание Дели, 7 февраля 2020 года, были распространены две видеозаписи с президентом Партии Бхаратия Джаната (БДП) Маноджа Тивари. Для предвыборной агитации индийский политик использовал технологию deepfake. На записи Тивари на языке хинди, диалекте хариани, призывает не голосовать за конкурирующую партию. Запись распространили в 5 800 чатах WhatsApp, а сам ролик просмотрело более 15 миллионов человек.
    Другой текст ролика был записан на английском языке. Соратники Тивари по партии положительно оценили реакцию на эти видео: «Домохозяйки в группе сказали, что им было радостно наблюдать, как наш лидер говорит на их языке». Другую оценку дал Пратик Синха, основатель AltNews, индийского веб-сайта, который проверяет публикации, сделанные в социальных сетях. Синха не смог определить, что видео Тивари было подделкой: «Это опасно. Впервые я увидел что-то подобное в Индии». В тоже время Синха считает, что, в отличие от США, запрет использования поддельных видеороликов с участием политиков не будет работать в Индии.

    Юридически будет сложно опротестовать такое использование deepfake технологии в политических целях, так как видео генерируется с согласия лица, образ которого используется в ролике, а использованный в нём текст – заранее согласован.

    Как получить максимум


    Deepfake, как и другие технологии, можно использовать как в деструктивных, так и в созидательных целях. Применение дипфейков в рекламе и киноиндустрии уже продемонстрировало большие возможности в этих направлениях.

    На данный момент широкое применение дипфейков сдерживается двумя факторами: недостаточным совершенством алгоритмов и высокой стоимостью конечного продукта. Но развитие индустрии развлечений позволит вывести deepfake на массовый рынок, что улучшит эти два показателя.

    Пример такой реализации демонстрируют южнокорейские специалисты, подарившие безутешной матери возможность «пообщаться» с погибшей дочерью при помощи виртуальной реальности. На создание цифровой копии девочки им потребовалось восемь месяцев. Этический вопрос о том, как такие разработки влияют на психику людей, выходит за рамки данной статьи.

    Развитие deepfake-технологий идёт очень быстро. Точность генерируемых данных улучшается. Алгоритмы выявления обмана совершенствуются. Законодательное регулирование использования дипфейков становятся строже. Но те фантастические возможности, которые предоставляет эта технология, найдут широкое применение в нашей жизни. Надо только сконцентрироваться на их конструктивном применении и заменить негативно воспринимаемое название deepfake на новое — например, deepsynthesis.

    В ближайшие три года можно ожидать появления многих компаний, которые будут оказывать услуги по генерации окружающего нас пространства. Эксперты уверены, что рынок коммерческого применения deepfake будет расти, и это хороший стимул для разработки решений с использованием этой технологии.

    Оригинал статьи на сайте rb.ru

    Средняя зарплата в IT

    120 000 ₽/мес.
    Средняя зарплата по всем IT-специализациям на основании 6 532 анкет, за 1-ое пол. 2021 года Узнать свою зарплату
    Реклама
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее

    Комментарии 26

      0
      Данная технология очень пригодится для… пользователя ей — самого себя.
      «Социальный мониторинг» — это зло.
      Данная технология поможет в борьбе с ним.

      И для самого себя, всегда можно добавить новую информацию, уточнение, видео аудио самого себя, для наилучшего и качественного использования данной технологии.
        0
        Некоторые разработчики так и делают.
        0
        Алгоритмы deepfake осуществляют переворот в киноиндустрии. При должном уровне развития технологии можно будет сгенерировать всех актеров, необходимых для фильма. При этом, если нет копирования конкретного актера, а создаётся новый образ со своим уникальным голосом и мимикой, необходимость в актерах пропадает. Исчезают баснословные гонорары, а киноиндустрия полностью оцифровывается и переходит к выпуску интерактивных анимационных фильмов, где сюжетная линия меняется в зависимости от реакции зрителей.

        Про это есть замечательное кино «Конгресс» с Робин Райт в главной роли, которая в нем играет саму себя. Для актеров с баснословными гонорарами там все не очень хорошо закончилось.
          0
          Это как с самоизоляцией.
          Кино – это кино, концерт по телевизору и в записи – аналогично, а вот личное присутствие или театр – тут подмены быть не может.
          уверен, что появятся и другие способы самореализоваться хорошим артистам.
            0

            Остается открытым вопрос, нужно ли кому-нибудь такое кино с ненастоящими актерами?
            Скорее можно приспособить нейросети для автоматизации отрисовки того, что и так создается с помощью технологий — инопланетян, орков, роботов, фантастические пейзажи и прочее подобное.

              0
              Или изменение возраста героя.
              Часто в молодости роль исполняет один артист, а в финале – другой.
              А так – будет целостный образ.
            0
            киноиндустрия полностью оцифровывается и переходит к выпуску интерактивных анимационных фильмов
            уже 20 лет такое прочат, всё никак не перейдут чего-то.
              0
              Для такого перехода нужны свои гении.
              Ждём их появления.
                0
                это разные жанры. уже давно существуют компьютерные игры, которые более-менее подпадают под «интерактивные фильмы», у них своя аудитория, у «обычных» фильмов — своя. визуальные новеллы тоже не вытеснили комиксы или книги.
                  0
                  Героями фильмов бывают не только люди, и генерируют образы не только людей.
                  Если без перегибов, то генерация участников фильма найдёт применение.
                  Всему своё время.
                    0
                    я про интерактивность, а не про «генерацию участников фильма».
                      0
                      Да, это скорее всего будет новый жанр.
                      И отличаться от игры он будет тем, что вы не участвуете в самой игре, а только выбираете линию развития.
              0
              Ничто не вечно под луной
              Заголовок спойлера
              – Опять не понял, – сказал Татарский.

              – Раньше такой сюжет два дня считать надо было. А теперь за ночь делаем. Поэтому и жестов больше можем посчитать, и мимики.

              – А что считаем-то?

              – Да вот его и считаем, – сказал Морковин и кивнул на телевизор. – И всех остальных тоже. Трехмерка.

              – Трехмерка?

              – Если по науке, то «три-дэ модель». А мужики их «трехмерзостью» называют.

              Татарский уставился на приятеля, стараясь понять, шутит тот или говорит всерьез. Тот молча выдержал его взгляд.

              – Ты что мне такое рассказываешь?

              – То и рассказываю, что Азадовский велел. В курс ввожу.

              Татарский посмотрел на экран. Теперь показывали думскую трибуну, на которой стоял мрачный, как бы только что вынырнувший из омута народного остервенения оратор. Неожиданно Татарскому показалось, что депутат действительно неживой – его тело было совершенно неподвижным, шевелились только губы и изредка веки.

              – И этот тоже, – сказал Морковин. – Только его погрубей просчитывают, их много слишком. Он эпизодический. Это полубобок.

              – Чего?

              – Ну, мы так думских трехмеров называем. Динамический видеобарельеф – проработка вида под одним углом. Технология та же, но работы меньше на два порядка. Там два типа бывает – бобок и полубобок. Видишь, ртом шевелит и глазами? Значит, полубобок. А вон тот, который спит над газетой, – это бобок. Такой вообще на винчестер влазит. У нас, кстати, отдел законодательной власти недавно премию получил. Азадовский смотрел вечером новости, а там депутаты про телевидение говорят, что продажное, блядское и так далее. Азадовский, натурально, в обиду – разбор хотел начинать, трубку даже снял. Уже номер набирает и вдруг думает – с кем разбираться-то? Не, хорошо работаем, раз самих пробивает.

                0
                Прежде чем что-то реализовать, кто-то должен это придумать.
                0
                А зачем исходники вордпресса?
                  0
                  Не понял вопроса.
                  Какие исходники и где?
                    0
                    да вот же они, прямо под фразой "… вещи ручной работы."
                      0
                      Для конспирации :)
                  0
                  развитие deepfake сдерживается скоростью и ценой видеокарт. Сложно экспериментировать, когда модели тренируются днями даже на RTX2080TI.

                  Также большую роль играет опенсорс. Первая прога дипфейков FakeApp вышедшая в начале 2018, является пользователем открытых библиотек.
                  Опенсорс — это очень мощный двигатель прогресса. По возможности старайтесь опенсорсить всё что можете, особенно если это уникальные алгоритмы, и главное проставлять различные тэги чтобы их можно было найти. Ваш опенсорс может пригодиться в самых неожиданных решениях и родить новую технологию.
                    0
                    Нет возможности поставить лайк, но поддерживаю это мнение.
                      0
                      Днями? Это вы очень оптимистичны)
                      Хорошие модели в облаке на коллабе тренятся неделями, и то с ограничениями т.к для них бы RTX 8000 или хотя бы RTX Titan X по объему VRAM.
                        0
                        Всё меняется.
                        то, что сегодня делается неделями и месяцами – скоро будет исчисляться днями и часами.
                        И надо учитывать 2 фактора:
                        1. Это обучение системы
                        2. Генерация голоса или видео уже обученной системы.
                        Первое – значительно дольше.
                          0
                          Пока что это всё не идеально. Каждая новая пара лиц учится заново.
                          Аппаратные мощности конечно растут, но в данный момент они работают не на ускорение обучения, а на наращивание разрешения картинки для крупных планов и увеличение размерности модели для освоения большего числа признаков лиц.
                            0
                            Согласен.
                      0
                      А есть ссылка на deepfake с Галь Гадот? Шутка. А если по теме, то, думаю, мы застанет то время, когда можно будет с лёгкостью смотреть фильмы со своим участием ))
                        0
                        Если не ошибаюсь, то это одна из копий той записи vimeo.com/247305183

                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                      Самое читаемое