Создание deepfake видео и синтез речи open-source проект Wunjo AI / Habr

Привет, мир!

Я бы хотел рассказать о своем open-source проекте Wunjo AI с открытым исходным кодом, который позволит вам создавать дипфейк видео и синтезировать речь из текста у себя на компьютере. В этом посте я постараюсь познакомить вас с возможностями Wunjo AI и пригласить вас в поддержать проект на GitHub.

Привет Хабр!

Возможности

Синтез текста в речь: с помощью Wunjo AI вы можете легко преобразовывать письменный текст в реалистичную речь. Независимо от того, являетесь ли вы рассказчиком, создателем контента или работаете над решениями для специальных возможностей, передовые методы обработки естественного языка (NLP) позволят вам создавать реалистичное аудио из текста. У меня доступно три модели, женский, мужской и робо- голоса на русском. Вы также можете добавить свои модели Tacatron2 для голоса и использовать формат фонемы для английского языка. Вы также можете создать диалог между большим количеством людей.

Панель создания диалога

Создание дипфейковых видео: Преобразуйте существующие изображение в видео, плавно накладывая мимику и жесты на разных персонажей. Вы также можете управлять движением и вращением головы. Если вы добавите расширение, то сможете генерировать изображения для дипфейк видео с помощью Dall-e 2. На изображении должны быть отчетливо видны глаза и рот, тогда вы сможете оживить его.

Панель создания дипфейк видео. Необходимо выбрать лицо и нажать синтез видео

Расширения: Вы можете создавать свои расширения для использования в Wunjo AI для повышения функциональности. Например, есть расширения, которая позволяет взаимодействовать с консолью, использовать GPU, обучать модель на вашем голосе или работать с ChatGPT. Список расширений доступен в приложении. При создании возможности расширений я был вдохновлен AUTOMATIC1111

Как начать?

В репозитории GitHub, доступен код проекта и документация. Проект создан на Flask UI + BeeWare. Независимо от того, являетесь ли вы опытным разработчиком или просто интересуетесь нейронных сетей, вы найдете благоприятную среду для экспериментов и внесения своего вклада. Также вы можете установить готовый проект на Linux, MacOS или Windows.

Следите за обновлениями

Это только начало! В следующих статьях я хочу рассказать вам о том, как все устроено изнутри, как работает синтез текста в речь Wunjo AI и создание дипфейковых видео. Независимо от того, интересуетесь ли вы магией синтеза речи или мастерством дипфейковых видео, Wunjo AI — ваш холст. Вместе мы сформируем будущее этого проекта с открытым исходным кодом и откроем новые возможности.

Также я публикую несколько видео результатов работы Wunjo AI и различных экспериментов с нейросетями и проектами с открытым исходным кодом у себя на канале YouTube.

P.S. Веб-сайт и интерфейс проекта сгенерировал через Stable Diffusion.