Разработчики SkyworkAI выпустили SkyReels V2 — открытую модель для генерации видео по текстовому описанию. В бенчмарке VBench нейросеть опережает OpenSora 2.0 и HunyuanVideo.

Авторы проекта отмечают, что разработчики моделей для генерации видео в основном используют метод обратной диффузии, что плохо сказывается на качестве роликов. Например, персонажи в кадрах могут отличаться, а детали во время генерации не всегда учитываются. Кроме того, такие нейросети могут генерировать видео длительностью до 10 секунд.
Для решения этих проблем команда SkyworkAI разработала альтернативную архитектуру Diffusion Forcing, которая объединяет мультимодальные языковые модели и многоступенчатую предварительную подготовку данных. В итоге нейросеть SkyReels V2 генерирует более согласованные видео любой продолжительности.

В SkyReels V2 есть следующие режимы генерации:
Story Generation — конвейер по производству видео, включающий в себя генерацию сюжета.
Image‑to‑Video — генерация видео по изображению.
Camera Director — режим управления виртуальной камерой. Можно менять ракурс, угол обзора, зум и отслеживание объектов в кадре.
Elements‑to‑Video — создание визуальных эффектов и объектов, которые после можно встроить в видеоряд.
В бенчмарке VBench нейросеть SkyReels V2 обходит OpenSora 2.0, Wan2.1-14B, CogVideoX1.5-5B и HunyuanVideo-13B. В оценке человеком SkyReels V2 показывает лучший средний результат среди этих же нейросетей для режима Text to video.


Код проекта опубликован на GitHub, а веса модели доступны на Hugging Face. Протестировать нейросеть можно на портале SkyReels.