Wladradchenko Aug 28 2023 at 16:56

Как я создал свой дипфейк для презентации

Easy

3 min

8.2K

Open source * Working with video * SoftwareArtificial IntelligenceThe future is here

Case

+19

Comments 19

Pinned comments

Wladradchenko Aug 29 2023 at 15:00

А если вам интересно увидеть полностью результат, либо вам интересно послушать об исследовании способов распознования трафика нейронными сетями. Вот это самое видео для которого создавался дипфейк. Голос синтезирован нейронной сетью.

Wladradchenko Aug 29 2023 at 19:58

Написал документацию об open-source проекте. Возможно вы найдете его полезным для. Со временем она будет пополняться, в том числе и видео по установке, настройки и работы с фичами.

csharpreader Aug 28 2023 at 17:07

Так а где само видео? На канале его нет.

Wladradchenko Aug 28 2023 at 19:28

Привет. Видео опубликую в комментарии позже, так как там упоминается продукт, и я не могу от себя без разрешения владельца продукта его опубликовать. Если оно будет, опубликую видео на презентацию научной статьи, если нет, тогда опубликую видео сравнение, что было и что стало. Предположительно завтра.

Wladradchenko Aug 29 2023 at 10:19

Видео сравнение, что было до, и что стало после применения дипфейка https://youtube.com/shorts/rxfu4k5mKE4?feature=share

csharpreader Aug 29 2023 at 11:45

Какой-то не совсем удачный кусочек – и там, и там рассинхрон по звуку.

Wladradchenko Aug 29 2023 at 12:00

Похоже это произошло после экспорта из DJI Mimo, где я быстренько видео монтировал на телефоне для примера к статье. Звук немного сдвинулся относительно видео. В принципе ладно, визуальный результат и изменение движения губ видно.

Интересно станет ли визуально лучше этот дипфейк, если на лицо добавить немного шумов и наложить дипфейк эмоций. Надо бы проверить))

Wladradchenko Aug 29 2023 at 13:15

Вот, если интересно будет посмотреть на исходники, там уже не может быть задержки вызванной приложением, там уже как выходит из программы результат.

deepfake_source

drive.google.com

deepfake_result

drive.google.com

aamonster Aug 28 2023 at 17:35

Т.е. получается, что у вас из нескольких килобайт текста создаётся видео? Ох... Мне б наоборот, чтобы все эти видеоролики обратно в текст сматывать, не тратить же часы на их просмотр?

Wladradchenko Aug 28 2023 at 20:55

В обновлении 1.5, я уже добавил речь в текст в приложении, чтобы пользователь мог (а) произносить текст для синтеза, а он вводился в окно для ввода текста и (б) распознавание текста из аудио файла. Но это работает на решение от Google и далеко не идеально распознает.

Но это в основном как дополнение, чтобы упростить способ создание диалогов -> синтезировать текст в речь. Основная концепция приложения создавать контент создавая речь и дипфейк видео, и это было бы для пользователей максимально просто без сложных настроек, без ограничений и бесплатно.

aamonster Aug 28 2023 at 21:24

Я, похоже, не смог донести мысль

Я один из тех (нас таких на Хабре много), кто предпочитает там, где это возможно (т.е. почти всегда) получать текстовое представление, а не видео. Меньше времени тратить, меньше визуального мусора разглядывать. Поэтому вашу задачку (пусть она и интересна технически) склонен воспринимать как что-то в лучшем случае бесполезное, а в худшем – вредное.

А вот обратная задача (из видео получить полностью заменяющий его текст, или презентацию с текстом и картинками, в худшем случае с небольшими видеовставками) кажется очень интересной и полезной. Т.е. сделать из чего-то, что требует для восприятия час – нечто на 10 минут. Автоматическое конспектирование лекций, если вам будет угодно, а не разворачивание конспекта в прочитанную роботом лекцию.

Задача, очевидно, сложнее, чем просто распознавание речи. Не уверен, что вообще можно её решить без задействования человека для разметки "вот это надо показать, а тут и текста хватит", но если сделать хоть какое-то приближение + удобный инструмент редактирования – уже круто.

vmkazakoff Aug 28 2023 at 23:06

Для вашей задачи есть whisper, разворачивается на своем компе/сервере очень легко, есть чистая версия (консольная), а есть с GUI на любой вкус и цвет. Я молчу что для всяких ютубов полно приложений которые не только распознают, но и саммари сделают.

Тут же решали другую задачу, и она совсем не бесполезная и тем более не вредная.

Смотрите. Если вы знакомы с кулинарией и в целом умеете готовить, то вам для того чтобы узнать как готовить определенное блюдо надо максимум ингредиенты и последовательность увидеть в общих чертах. Но если вы ни разу не готовили ничего, сложнее бутерброда, то для приготовления борща или селёдки под шубой вам будет нужно как минимум фото процесса, желательно много.

С уроками по другим темам то же самое - если вы уже знаете питон/джаву/... и хотите просто больше деталей или какой-то конкретной инфы - вам нужен текст. Если же вы вообще не писали раньше ни на каком языке и не работали в консоли, то даже для установки окружения текста будет мало, а со скринами страница превратится в адскую простыню. В итоге для объяснения основ удобнее видео со слайдами и голосом, для профи - тест и минимум картинок типа схем, для промежуточного состояния - текст со всеми основными скринами.

Так вот для видео - просто голос на фоне слайдов слушать тяжело. Наш мозг просто так устроен (не у всех, есть исключения, но редкие) что мы не можеммоем держать внимание на картинке, на которой ничего не движется. И самое простое и понятное движение, которое не отнимает когнитивной энергии и добавляет вовлечения - лицо человека. И вот тут автор предлагает решение на самом деле очень крутое.

Какие бонусы вижу сходу:

можно исключить мелкие проблемы с речью типа заикания при волнении
убрать заминки когда хочется попить воды или закашлялся
минус все проблемы с волнением, мимикой, взглядом
долой головная боль с организацией приличного фона (как визуального, так и звукового) в домашних условиях
не надо переписывать дубль когда прибежал ребенок, залаяла собака, приехал курьер или сосед вспомнил что у него ремонт не закончен
идеальный звук надо получить один раз, а не париться с микрофоном за несколько тысяч рублей и эхоподавлением ака "одеяло на стене"
можно отретушировать фото и не париться про прыщи и немытые волосы
очень удобно делать монтаж - если стало понятно что в уроке что-то забыли, то просто генерим ещё кусочек и вставляем - в жизни так не получится, даже в студии на следующий день без профи стилистов и визажистов актеры бы не смогли повторить образ, а дома через неделю точно изменится и фон, и свет, и звук, и одежда, и прическа, и все на свете... я помню как снимал урок в один день и только на монтаже заметил как свет солнца из окна прыгает в моменты где мы вырезали куски неудачные (
Так что решение весьма и весьма полезнее, просто не для вас и ваших задач.

aamonster Aug 29 2023 at 06:56

Whisper, как я понимаю, это не вся задача, а её часть. Получить текст из речи.

Остаётся ещё куча нетривиального – как минимум, какие кадры надо сохранить, потому что без них чистый текст непонятен.

Так что решение весьма и весьма полезнее, просто не для вас и ваших задач.

Ну да, как-то так. Поэтому я и не критикую этот продукт, а говорю о нужности противоположного.

SUNsung Aug 29 2023 at 03:17

Я такой же любитель читать, но прочитал с интересом. Ведь статья натолкнула меня на мысль обучить модель и отвечать за меня на всех созвонах. Четко, внятно, на любом нужном языке. От меня только по клавишам стучать требуется)

holodoz Aug 29 2023 at 05:58

Зачем стучать по клавишам, когда можно дообучить llm какую-нибудь. А в конце созвона пусть саммари на пару абзацев пришлет. Эх, если бы я мог на irl совещаниях такое использовать

aamonster Aug 29 2023 at 06:46

Да я и сам читал с интересом. Мне не нужен результат, который получил автор, а вот детали реализации радуют, может, когда-нибудь что-то из них пригодится.

Aspos Aug 28 2023 at 17:52

Uncanny valley.

vinodimus Aug 29 2023 at 03:17

Круто!

TimID Aug 29 2023 at 07:25

Если презентация, то лучше не просто говорящую голову добавлять, а реализовать фигуру, перемещающуюся около виртуальной доски и указывающую на важные места в презентации. Примерно как в прогнозе погоды.
Если, конечно, презентация не анимированная. Там и говорящая голова может быть лишней.

Wladradchenko Aug 29 2023 at 15:00

Wladradchenko Aug 29 2023 at 19:58