Комментарии / Профиль Wladradchenko / Хабр

Senior Software Developer

Подписчики

ПрофильСтатьи17Посты10НовостиКомментарии109

Клонирование голоса, замена лица по фото, удаления объектов в видео и все в одном open-source проекте Wunjo AI

Wladradchenko 7 сен 2023 в 12:58

В приложении такого не будет, оно создано только для создании контента. Озвучки роликов, создания видео, все то, что может помочь людям с минимальными усилиями продвигать их продукты, идеи, итд ))

Как я создал свой дипфейк для презентации

Wladradchenko 29 авг 2023 в 19:58

Написал документацию об open-source проекте. Возможно вы найдете его полезным для. Со временем она будет пополняться, в том числе и видео по установке, настройки и работы с фичами.

Как я создал свой дипфейк для презентации

Wladradchenko 29 авг 2023 в 15:00

А если вам интересно увидеть полностью результат, либо вам интересно послушать об исследовании способов распознования трафика нейронными сетями. Вот это самое видео для которого создавался дипфейк. Голос синтезирован нейронной сетью.

Как я создал свой дипфейк для презентации

Wladradchenko 29 авг 2023 в 13:15

Вот, если интересно будет посмотреть на исходники, там уже не может быть задержки вызванной приложением, там уже как выходит из программы результат.

deepfake_source

drive.google.com

deepfake_result

drive.google.com

Как я создал свой дипфейк для презентации

Wladradchenko 29 авг 2023 в 12:00

Похоже это произошло после экспорта из DJI Mimo, где я быстренько видео монтировал на телефоне для примера к статье. Звук немного сдвинулся относительно видео. В принципе ладно, визуальный результат и изменение движения губ видно.

Интересно станет ли визуально лучше этот дипфейк, если на лицо добавить немного шумов и наложить дипфейк эмоций. Надо бы проверить))

Как я создал свой дипфейк для презентации

Wladradchenko 29 авг 2023 в 10:19

Видео сравнение, что было до, и что стало после применения дипфейка https://youtube.com/shorts/rxfu4k5mKE4?feature=share

Как я создал свой дипфейк для презентации

Wladradchenko 28 авг 2023 в 20:55

В обновлении 1.5, я уже добавил речь в текст в приложении, чтобы пользователь мог (а) произносить текст для синтеза, а он вводился в окно для ввода текста и (б) распознавание текста из аудио файла. Но это работает на решение от Google и далеко не идеально распознает.

Но это в основном как дополнение, чтобы упростить способ создание диалогов -> синтезировать текст в речь. Основная концепция приложения создавать контент создавая речь и дипфейк видео, и это было бы для пользователей максимально просто без сложных настроек, без ограничений и бесплатно.

Как я создал свой дипфейк для презентации

Wladradchenko 28 авг 2023 в 19:28

Привет. Видео опубликую в комментарии позже, так как там упоминается продукт, и я не могу от себя без разрешения владельца продукта его опубликовать. Если оно будет, опубликую видео на презентацию научной статьи, если нет, тогда опубликую видео сравнение, что было и что стало. Предположительно завтра.

Бесконечное радио создаваемое нейронными сетями. Open-source проект

Wladradchenko 21 авг 2023 в 18:19

Спасибо за идею. Добавил fade in, fade out на треки))

Бесконечное радио создаваемое нейронными сетями. Open-source проект

Wladradchenko 21 авг 2023 в 08:40

Согласен. Пока лимит в 1 мин 30 секунд по генерации)) Думаю дальше только круче будет развитие технологии генерации музыки

Бесконечное радио создаваемое нейронными сетями. Open-source проект

Wladradchenko 21 авг 2023 в 07:44

Как раз игру дорабатываю из codepen в честь 1000 подписчиков на ТенЧат, ещё не выпускал. Симулятор автора статей называется https://wladradchenko.ru/simulator_post. Суть при помощи тапов писать статьи, набирать подписчиков и изучать темы, чтобы улучшать скиллы, и все это 1 игровой год. Остаётся подключить к музыки и подкасту из radio.wladradchenko.ru, генерации текста скиллов и тем статей, убрать лимит в 1 год (точнее добавить, что можно продолжить) , и вот бесконечный рогалик нейронными сетями)))

Тоже скоро код открою под игру как полностью будет готова

Бесконечное радио создаваемое нейронными сетями. Open-source проект

Wladradchenko 21 авг 2023 в 07:35

Мне показалось решение от Facebook создаёт более качественную музыку, есть Music решение для создание музыки и Audio для создания эффектов, например шум моря, аплодисменты

Создание deepfake видео и синтез речи open-source проект Wunjo AI

Wladradchenko 15 авг 2023 в 07:08

Добавил обновление 1.4. Желательно обновиться, чтобы была возможность узнавать о новых фичах и обновлениях.

Добавил дипфейк для работы с исходным видео, который синхронизирует движение губ под аудио
Добавил выбор видеофрагмента для дипфейка в зависимости от длины звуковой дорожки
Добавил возможность смены каталога для папки кэша .wunjo.
Добавил перевод приложения на разные языки
Обучил и добавил модели TTS для английской речи
Добавил идентификацию языка языковой модели в интерфейсе
Добавил возможность говорить на английском для русской модели и говорить на русском для английской модели
Добавил возможность использования синтеза речи на пользовательских моделях TTS (ru, en)
Добавлено оповещение об обновлении
Интеграция ссылок на обучающее видео и вики-страницу

Основные ресурсы нейронных сетей для начинающих и энтузиастов

Wladradchenko 11 авг 2023 в 09:49

Да вроде нет. Там уже дедушка был возрастом Андрея Себранта и тоже как-то связан был со школой анализа данных. Либо ВШЭ, либо МГУ, либо и там, и там. (очень давно было, 3 года назад, не сильно помню)

А на видео молодой человек по ссылке из коммента.

Основные ресурсы нейронных сетей для начинающих и энтузиастов

Wladradchenko 11 авг 2023 в 07:02

Сам репозиторий https://github.com/wladradchenko/help.wladradchenko.ru будет со временем увеличиваться (в плане опен сорс проектов). Есть еще курс от преподавателя НИУ ВШЭ (если кто-то напишет его в комментах, будет хорошо), но я его не вспомнил. В принципе будет классно, если каждый добавит от себя ресурсы.

Создание deepfake видео и синтез речи open-source проект Wunjo AI

Wladradchenko 9 авг 2023 в 10:42

Попробуйте вернуть назад os.path.expanduser('~') в app/speech/tts/synthesizer.py и app/backend/folders.py. В app/backend/folders.py добавить строчку с os.environ["HOME"] как в примере https://docs-python.ru/standart-library/modul-os-path-python/funktsija-expanduser-modulja-os-path/ (если понадобится и в app/speech/tts/synthesizer.py)

Создание deepfake видео и синтез речи open-source проект Wunjo AI

Wladradchenko 9 авг 2023 в 09:22

Такие и должны быть. Еще есть строчка data_dir = os.path.join(os.path.expanduser('~'), '.wunjo') в файле по пути app/speech/tts/synthesizer.py. Там нужно поменять os.path.expanduser('~') на нужную вам директорию. Эта строчка как раз отвечает за то, где хранятся модели голосов

Создание deepfake видео и синтез речи open-source проект Wunjo AI

Wladradchenko 9 авг 2023 в 08:18

Нет. Это путь не самого приложения и вы можете задать его абсолютным, HOME_FOLDER путь где вы хотите создать папку .wunjo куда будут скачиваться модели (они весят больше чем само приложение), и будут результаты генерации. На видео я как раз рассказываю об этой папке .wunjo.

Само приложения, попробуйте перенести обычным копированием (если требуется), не думаю, что при установки через BeeWare билд, создаются абсолютными пути до исполняемых файлов и файлов библиотек.

Создание deepfake видео и синтез речи open-source проект Wunjo AI

Wladradchenko 9 авг 2023 в 07:33

Можно. В приложении изначально не предусматривался выбор каталога, но можно сделать это самостоятельно:

Проходим в директорию, где установлено приложение, если используется проект из Гитхаба, тогда в директорию проекта.
Далее я буду писать про установленное приложение, так как по ссылкам на Гитхаб, если используется проект оттуда, будет понятно, где и что лежит. Открываем файл app/backend/folders.py и заменяем HOME_FOLDER на свою директорию. Например HOME_FOLDER="абсолютный_путь_в_нужную_директорию"

Дополнительно:

Вчерашний билд с фиксом для винды я правил на коленках, поэтому не надо удалять папку .wunjo/video в директории пользователя (пусть будет пустой), туда будут помещаться временные файлы для генерации дипфейка, а потом сами оттуда удаляться, размер их небольшой (остальные папки можно удалить, либо перенести в новую директорию, что бы не скачивать модели заново).

Создание deepfake видео и синтез речи open-source проект Wunjo AI

Wladradchenko 8 авг 2023 в 14:50

Туториал прикрепил.

Насчет CUDA. Для того, чтобы проект видел CUDA и генерация могла работать на GPU, нужно ставить расширение https://github.com/wladradchenko/advanced.wunjo.wladradchenko.ru . Без расширения проект работает на CPU.

1 2 3 4

В рейтинге: 5 876-й

Работает в: VAS Experts

Зарегистрирован: 5 августа 2023

Активность: 23 апреля в 05:26

Веб-разработчик, ML разработчик

Старший

Python

Разработка программного обеспечения

Алгоритмы и структуры данных

Нейронные сети

Машинное обучение

Deep Learning

PyTorch

TensorFlow

Computer Science

Информация

Специализация