Meta* представила VideoJAM: ИИ-генератор видео с темпоральной когерентностью SOTA

Создание видео со сложными, реалистичными движениями остается одной из самых трудноразрешимых задач для ИИ-моделей для генерации видео. Даже самые популярные инструменты, такие как Sora от OpenAI, Gen-3 от Runway и Kling AI, продолжают испытывать трудности с согласованностью движений.
Попробуйте сгенерировать сцену, в которой человек наливает молоко или нарезает помидор, и вы наверняка заметите несоответствия - жидкости не подчиняются силе тяжести, объекты сливаются друг с другом, а конечности неестественно извиваются.
Чтобы продемонстрировать эту проблему, я попытался с помощью Sora от OpenAI быстро сгенерировать видео мальчика, кусающего бургер.