Pull to refresh

Comments 21

PinnedPinned comments

А если вам интересно увидеть полностью результат, либо вам интересно послушать об исследовании способов распознования трафика нейронными сетями. Вот это самое видео для которого создавался дипфейк. Голос синтезирован нейронной сетью.

Написал документацию об open-source проекте. Возможно вы найдете его полезным для. Со временем она будет пополняться, в том числе и видео по установке, настройки и работы с фичами.

Привет. Видео опубликую в комментарии позже, так как там упоминается продукт, и я не могу от себя без разрешения владельца продукта его опубликовать. Если оно будет, опубликую видео на презентацию научной статьи, если нет, тогда опубликую видео сравнение, что было и что стало. Предположительно завтра.

Какой-то не совсем удачный кусочек – и там, и там рассинхрон по звуку.

Похоже это произошло после экспорта из DJI Mimo, где я быстренько видео монтировал на телефоне для примера к статье. Звук немного сдвинулся относительно видео. В принципе ладно, визуальный результат и изменение движения губ видно.

Интересно станет ли визуально лучше этот дипфейк, если на лицо добавить немного шумов и наложить дипфейк эмоций. Надо бы проверить))

Вот, если интересно будет посмотреть на исходники, там уже не может быть задержки вызванной приложением, там уже как выходит из программы результат.

Т.е. получается, что у вас из нескольких килобайт текста создаётся видео? Ох... Мне б наоборот, чтобы все эти видеоролики обратно в текст сматывать, не тратить же часы на их просмотр?

В обновлении 1.5, я уже добавил речь в текст в приложении, чтобы пользователь мог (а) произносить текст для синтеза, а он вводился в окно для ввода текста и (б) распознавание текста из аудио файла. Но это работает на решение от Google и далеко не идеально распознает.

Но это в основном как дополнение, чтобы упростить способ создание диалогов -> синтезировать текст в речь. Основная концепция приложения создавать контент создавая речь и дипфейк видео, и это было бы для пользователей максимально просто без сложных настроек, без ограничений и бесплатно.

Я, похоже, не смог донести мысль

Я один из тех (нас таких на Хабре много), кто предпочитает там, где это возможно (т.е. почти всегда) получать текстовое представление, а не видео. Меньше времени тратить, меньше визуального мусора разглядывать. Поэтому вашу задачку (пусть она и интересна технически) склонен воспринимать как что-то в лучшем случае бесполезное, а в худшем – вредное.

А вот обратная задача (из видео получить полностью заменяющий его текст, или презентацию с текстом и картинками, в худшем случае с небольшими видеовставками) кажется очень интересной и полезной. Т.е. сделать из чего-то, что требует для восприятия час – нечто на 10 минут. Автоматическое конспектирование лекций, если вам будет угодно, а не разворачивание конспекта в прочитанную роботом лекцию.

Задача, очевидно, сложнее, чем просто распознавание речи. Не уверен, что вообще можно её решить без задействования человека для разметки "вот это надо показать, а тут и текста хватит", но если сделать хоть какое-то приближение + удобный инструмент редактирования – уже круто.

Для вашей задачи есть whisper, разворачивается на своем компе/сервере очень легко, есть чистая версия (консольная), а есть с GUI на любой вкус и цвет. Я молчу что для всяких ютубов полно приложений которые не только распознают, но и саммари сделают.

Тут же решали другую задачу, и она совсем не бесполезная и тем более не вредная.

Смотрите. Если вы знакомы с кулинарией и в целом умеете готовить, то вам для того чтобы узнать как готовить определенное блюдо надо максимум ингредиенты и последовательность увидеть в общих чертах. Но если вы ни разу не готовили ничего, сложнее бутерброда, то для приготовления борща или селёдки под шубой вам будет нужно как минимум фото процесса, желательно много.

С уроками по другим темам то же самое - если вы уже знаете питон/джаву/... и хотите просто больше деталей или какой-то конкретной инфы - вам нужен текст. Если же вы вообще не писали раньше ни на каком языке и не работали в консоли, то даже для установки окружения текста будет мало, а со скринами страница превратится в адскую простыню. В итоге для объяснения основ удобнее видео со слайдами и голосом, для профи - тест и минимум картинок типа схем, для промежуточного состояния - текст со всеми основными скринами.

Так вот для видео - просто голос на фоне слайдов слушать тяжело. Наш мозг просто так устроен (не у всех, есть исключения, но редкие) что мы не можеммоем держать внимание на картинке, на которой ничего не движется. И самое простое и понятное движение, которое не отнимает когнитивной энергии и добавляет вовлечения - лицо человека. И вот тут автор предлагает решение на самом деле очень крутое.

Какие бонусы вижу сходу:

  • можно исключить мелкие проблемы с речью типа заикания при волнении

  • убрать заминки когда хочется попить воды или закашлялся

  • минус все проблемы с волнением, мимикой, взглядом

  • долой головная боль с организацией приличного фона (как визуального, так и звукового) в домашних условиях

  • не надо переписывать дубль когда прибежал ребенок, залаяла собака, приехал курьер или сосед вспомнил что у него ремонт не закончен

  • идеальный звук надо получить один раз, а не париться с микрофоном за несколько тысяч рублей и эхоподавлением ака "одеяло на стене"

  • можно отретушировать фото и не париться про прыщи и немытые волосы

  • очень удобно делать монтаж - если стало понятно что в уроке что-то забыли, то просто генерим ещё кусочек и вставляем - в жизни так не получится, даже в студии на следующий день без профи стилистов и визажистов актеры бы не смогли повторить образ, а дома через неделю точно изменится и фон, и свет, и звук, и одежда, и прическа, и все на свете... я помню как снимал урок в один день и только на монтаже заметил как свет солнца из окна прыгает в моменты где мы вырезали куски неудачные (

    Так что решение весьма и весьма полезнее, просто не для вас и ваших задач.

Whisper, как я понимаю, это не вся задача, а её часть. Получить текст из речи.

Остаётся ещё куча нетривиального – как минимум, какие кадры надо сохранить, потому что без них чистый текст непонятен.

Так что решение весьма и весьма полезнее, просто не для вас и ваших задач.

Ну да, как-то так. Поэтому я и не критикую этот продукт, а говорю о нужности противоположного.

Я такой же любитель читать, но прочитал с интересом. Ведь статья натолкнула меня на мысль обучить модель и отвечать за меня на всех созвонах. Четко, внятно, на любом нужном языке. От меня только по клавишам стучать требуется)

Зачем стучать по клавишам, когда можно дообучить llm какую-нибудь. А в конце созвона пусть саммари на пару абзацев пришлет. Эх, если бы я мог на irl совещаниях такое использовать

Да я и сам читал с интересом. Мне не нужен результат, который получил автор, а вот детали реализации радуют, может, когда-нибудь что-то из них пригодится.

Если презентация, то лучше не просто говорящую голову добавлять, а реализовать фигуру, перемещающуюся около виртуальной доски и указывающую на важные места в презентации. Примерно как в прогнозе погоды.
Если, конечно, презентация не анимированная. Там и говорящая голова может быть лишней.

А если вам интересно увидеть полностью результат, либо вам интересно послушать об исследовании способов распознования трафика нейронными сетями. Вот это самое видео для которого создавался дипфейк. Голос синтезирован нейронной сетью.

Написал документацию об open-source проекте. Возможно вы найдете его полезным для. Со временем она будет пополняться, в том числе и видео по установке, настройки и работы с фичами.

А вы, случайно, не один из тех, кто помогает ркн портить нам интернет и жизнь?

Как проект с открытым исходным кодом, создание дипфейков или исследовательская работа связаны с перечисленным и вообще с содержанием статьи?

Sign up to leave a comment.

Articles