Wladislav Radchenko @Wladradchenko
Senior Software Developer
Information
Specialization
Web Developer, ML Engineer
Senior
Python
C#
Software development
Algorithms and data structures
Neural networks
Machine learning
Deep Learning
Pytorch
TENSORFLOW
Computer Science
Вот, если интересно будет посмотреть на исходники, там уже не может быть задержки вызванной приложением, там уже как выходит из программы результат.
Похоже это произошло после экспорта из DJI Mimo, где я быстренько видео монтировал на телефоне для примера к статье. Звук немного сдвинулся относительно видео. В принципе ладно, визуальный результат и изменение движения губ видно.
Интересно станет ли визуально лучше этот дипфейк, если на лицо добавить немного шумов и наложить дипфейк эмоций. Надо бы проверить))
Видео сравнение, что было до, и что стало после применения дипфейка https://youtube.com/shorts/rxfu4k5mKE4?feature=share
В обновлении 1.5, я уже добавил речь в текст в приложении, чтобы пользователь мог (а) произносить текст для синтеза, а он вводился в окно для ввода текста и (б) распознавание текста из аудио файла. Но это работает на решение от Google и далеко не идеально распознает.
Но это в основном как дополнение, чтобы упростить способ создание диалогов -> синтезировать текст в речь. Основная концепция приложения создавать контент создавая речь и дипфейк видео, и это было бы для пользователей максимально просто без сложных настроек, без ограничений и бесплатно.
Привет. Видео опубликую в комментарии позже, так как там упоминается продукт, и я не могу от себя без разрешения владельца продукта его опубликовать. Если оно будет, опубликую видео на презентацию научной статьи, если нет, тогда опубликую видео сравнение, что было и что стало. Предположительно завтра.
Спасибо за идею. Добавил fade in, fade out на треки))
Согласен. Пока лимит в 1 мин 30 секунд по генерации)) Думаю дальше только круче будет развитие технологии генерации музыки
Как раз игру дорабатываю из codepen в честь 1000 подписчиков на ТенЧат, ещё не выпускал. Симулятор автора статей называется https://wladradchenko.ru/simulator_post. Суть при помощи тапов писать статьи, набирать подписчиков и изучать темы, чтобы улучшать скиллы, и все это 1 игровой год. Остаётся подключить к музыки и подкасту из radio.wladradchenko.ru, генерации текста скиллов и тем статей, убрать лимит в 1 год (точнее добавить, что можно продолжить) , и вот бесконечный рогалик нейронными сетями)))
Тоже скоро код открою под игру как полностью будет готова
Мне показалось решение от Facebook создаёт более качественную музыку, есть Music решение для создание музыки и Audio для создания эффектов, например шум моря, аплодисменты
Добавил обновление 1.4. Желательно обновиться, чтобы была возможность узнавать о новых фичах и обновлениях.
Добавил дипфейк для работы с исходным видео, который синхронизирует движение губ под аудио
Добавил выбор видеофрагмента для дипфейка в зависимости от длины звуковой дорожки
Добавил возможность смены каталога для папки кэша .wunjo.
Добавил перевод приложения на разные языки
Обучил и добавил модели TTS для английской речи
Добавил идентификацию языка языковой модели в интерфейсе
Добавил возможность говорить на английском для русской модели и говорить на русском для английской модели
Добавил возможность использования синтеза речи на пользовательских моделях TTS (ru, en)
Добавлено оповещение об обновлении
Интеграция ссылок на обучающее видео и вики-страницу
Да вроде нет. Там уже дедушка был возрастом Андрея Себранта и тоже как-то связан был со школой анализа данных. Либо ВШЭ, либо МГУ, либо и там, и там. (очень давно было, 3 года назад, не сильно помню)
А на видео молодой человек по ссылке из коммента.
Сам репозиторий https://github.com/wladradchenko/help.wladradchenko.ru будет со временем увеличиваться (в плане опен сорс проектов). Есть еще курс от преподавателя НИУ ВШЭ (если кто-то напишет его в комментах, будет хорошо), но я его не вспомнил. В принципе будет классно, если каждый добавит от себя ресурсы.
Попробуйте вернуть назад os.path.expanduser('~') в app/speech/tts/synthesizer.py и app/backend/folders.py. В app/backend/folders.py добавить строчку с os.environ["HOME"] как в примере https://docs-python.ru/standart-library/modul-os-path-python/funktsija-expanduser-modulja-os-path/ (если понадобится и в app/speech/tts/synthesizer.py)
Такие и должны быть. Еще есть строчка data_dir = os.path.join(os.path.expanduser('~'), '.wunjo') в файле по пути app/speech/tts/synthesizer.py. Там нужно поменять os.path.expanduser('~') на нужную вам директорию. Эта строчка как раз отвечает за то, где хранятся модели голосов
Нет. Это путь не самого приложения и вы можете задать его абсолютным, HOME_FOLDER путь где вы хотите создать папку .wunjo куда будут скачиваться модели (они весят больше чем само приложение), и будут результаты генерации. На видео я как раз рассказываю об этой папке .wunjo.
Само приложения, попробуйте перенести обычным копированием (если требуется), не думаю, что при установки через BeeWare билд, создаются абсолютными пути до исполняемых файлов и файлов библиотек.
Можно. В приложении изначально не предусматривался выбор каталога, но можно сделать это самостоятельно:
Проходим в директорию, где установлено приложение, если используется проект из Гитхаба, тогда в директорию проекта.
Далее я буду писать про установленное приложение, так как по ссылкам на Гитхаб, если используется проект оттуда, будет понятно, где и что лежит. Открываем файл app/backend/folders.py и заменяем HOME_FOLDER на свою директорию. Например HOME_FOLDER="абсолютный_путь_в_нужную_директорию"
Дополнительно:
Вчерашний билд с фиксом для винды я правил на коленках, поэтому не надо удалять папку .wunjo/video в директории пользователя (пусть будет пустой), туда будут помещаться временные файлы для генерации дипфейка, а потом сами оттуда удаляться, размер их небольшой (остальные папки можно удалить, либо перенести в новую директорию, что бы не скачивать модели заново).
Туториал прикрепил.
Насчет CUDA. Для того, чтобы проект видел CUDA и генерация могла работать на GPU, нужно ставить расширение https://github.com/wladradchenko/advanced.wunjo.wladradchenko.ru . Без расширения проект работает на CPU.
Видео как установить Wunjo AI на Windows и настроить deepfake https://www.youtube.com/watch?v=2qIpJYhOL2U
По виндовс, сейчас тестируется билд на эмуляторе вроде получилось повторить ошибку. Залил не достающие Python3 файлы, если получится, билд на виндос заработает и запишу видео.
Пробовали билд 1.3.1 или 1.3.2? Я залил изменения с фиксом face_alignment, там в библиотеке зачем то поменяли название переменной с 2_D на TWO_D в init, из-за этого может на брифкейс не пошло. Но с 1.3.2 необходимо перейти в директорию portable 'cd portable' и запустить 'briefcase dev'. Этого будет достаточно. briefcase build -> briefcase package, это уже чтобы билды делать.
Точнее по ошибки в билдах для виндос:
Нет доступа для чтения моделей. Чтобы разрешить доступ icacls "%USERPROFILE%/.wunjo/deepfake/gfpgan/weights/*.pth" /grant:r "Users":(R,W)
Однако, в билдах под виндос дальше возникает проблема not module aifc, который должен входить в пакет python3.
Разбираем дальше, оказывается проблема not module aifc возникает, при чтение аудио файла библиотекой librosa==0.8.0 по строчке librosa.core.load.
Данная проблема ещё не решена для билдов на виндос, поэтому для виндос лучше запускать приложение через briefcase dev, чтобы использовать deepfake, для синтеза речи достаточно будет билда.