Исследователи из Shanghai Jiao Tong University и Tencent Hunyuan представили Harmony - фреймворк для генерации синхронизированного аудиовизуального контента.

В отличие от существующих опенсорс-моделей, которые часто допускают ошибки в синхронизации видео и звука, разработчикам Harmony удалось выявить и решить эти проблемы. Фреймворк успешно справляется с генерацией как для английской и китайской речи, так и для окружающих звуков.

По качеству генерации и точности синхронизации Harmony значительно опережает такие методы, как JavisDiT, Ovi и UniVerse-1. Особенно разрыв заметен в нереалистичных сценах: где другие модели часто выдают статичное видео, Harmony создаёт динамичный и идеально синхронизированный контент.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник