Слышали про Audio2photoreal? Это модель машинного обучения, которая анимирует мимику 3D-аватаров на основе аудиозаписей голоса.
Audio2photoreal — это фреймворк для создания фотореалистичных виртуальных персонажей, которые артикулируют и жестикулируют в соответствии с речевой динамикой.
В его основе лежит объединение двух методов: векторного квантования (VQ) и диффузии. Первый точнее передаёт движения, а второй повышает детализацию.
Процесс анимации состоит из трёх частей:
• моделирования мимики;
• предсказания динамики позы;
• отрисовки движений тела.
На выходе получается анимированная со скоростью 30 кадров/с реконструкция говорящего человека.
Реалистично говорящие аватары востребованы в компьютерных играх, системах телеприсутствия, виртуальной и дополненной реальности, а также в разработке роботов, имитирующих эмоции.
На GitHub доступна реализация Audio2photoreal на Pytorch3D. С её помощью вы можете сгенерировать говорящих аватаров, используя в качестве входных данных речевые аудиозаписи.