Как стать автором
Обновить

Исследователи представили метод EchoMimic для генерации лицевой анимации по аудио и редактируемым маркерам

Время на прочтение1 мин
Количество просмотров1.1K

Исследователи представили нейросеть EchoMimic для генерации реалистичной лицевой анимации по редактируемым маркера лица и аудио. Особенность метода в том, что сохраняется исходное изображение.

EchoMimic разработан на базе генеративных моделей Stable Diffusion, а для распознавания референсов, аудио и характеристик лица используются дополнительные модули Audio Encoder, Landmark Encoder и Reference U-Net. На вход нейросеть получает изображение и запись голосу, а на выходе пользователь получает видео с анимацией. Нейросеть самостоятельно распознаёт лицевые маркеры: положения глаз, носа и губ.

Разработчики протестировали свою модель и отметили, что EchoMimic работает лучше и быстрее похожих решений, например AniPortrait и SadTalker. Метод проверяли на различных наборах данных и метриках.

EchoMimic можно запустить локально. Разработчики рекомендуют использовать не менее 16 ГБ видеопамяти. Нейросеть будет работать и на меньшем объёме памяти, но тогда увеличится время генерации. Инструкция по установке опубликована на GitHub. Также разработчики выложили текст исследовательской работы и поделились кодом на площадке Hugging Face.

Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
Всего голосов 2: ↑2 и ↓0+3
Комментарии1

Другие новости

Истории

Работа

Data Scientist
95 вакансий

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн
10 – 11 октября
HR IT & Team Lead конференция «Битва за IT-таланты»
МоскваОнлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн