Помнит минуты: релиз Matrix-Game 3.0, ИИ-движка интерактивного видео в 720p и 40 к/с / Хабр

Skywork AI выпустила Matrix-Game 3.0 – новую версию интерактивной мир-модели с открытым исходным кодом. Главные цифры релиза: генерация видео в разрешении 720p со скоростью 40 кадров в секунду на модели с 5 млрд параметров, а также поддержка долгосрочной памяти, удерживающей контекст на протяжении минуты и более.

Модель уже доступна на GitHub и Hugging Face. Разработчики выложили не только веса, но и код, а также подробный технический отчет. Как и в случае с Matrix-Game 2.0, которая легла в основу мультиплеерной мир-модели Solaris от команды Saining Xie, новый релиз продолжает традицию полной открытости.

Архитектура построена вокруг трёх компонентов:

Промышленный движок данных – комбинация синтетических сцен на Unreal Engine, автоматически собранных данных из AAA-игр и аугментированных реальных видеороликов. На выходе – масштабируемые четвёрки “видео – поза – действие – промпт”.
Обучение с памятью и самокоррекцией – базовый DiT (diffusion transformer) оснастили буфером ошибок. Во время тренировки модель запоминает разницу между предсказанным и реальным кадром (δ = x̂ᵢ − xⁱ), а затем намеренно вносит возмущения (x̃ᵢ = xⁱ + γδ), имитируя неидеальные условия генерации. Это позволяет модели учиться самоисправлению на длинных последовательностях.
Инференс, приближенный к реальности – для вывода применили многосегментную дистилляцию на основе distribution matching distillation (DMD) в связке с INT8-квантованием слоев внимания и облегчённым VAE-декодером MG-LightVAE (ускорение до 5,2×). В итоге 5B-модель выдает 40 FPS в 720p, используя 8 GPU для DiT и 1 GPU для VAE.

Общая схема Matrix-Game 3.0. Единый пайплайн объединяет генерацию данных на Unreal Engine, обучение DiT с буфером ошибок и ускоренный вывод

Ключевое нововведение – механизм извлечения памяти с учётом камеры. В единое пространство внимания помещаются латентные представления прошлых кадров, шум текущего кадра и извлечённые кадры-воспоминания. Модель одновременно учитывает долгосрочную память, краткосрочную историю и текущую цель.

Иллюстрация работы базовой модели с памятью. Извлечённые кадры-воспоминания обрабатываются совместно с прошлыми кадрами и зашумленным текущим кадром для обеспечения пространственно-временной согласованности на длинных горизонтах

Для отбора релевантных воспоминаний используется camera-aware memory selection – по позе камеры и полю обзора вычисляется перекрытие сцены, а геометрия кодируется через Плюккер-координаты. Постоянный sink latent (первый кадр) выступает глобальным якорем для стиля сцены.

Схема дистилляции. Многосегментные роллауты модели-ученика имитируют реальный инференс, а последний сегмент используется для согласования распределений

Сейчас в открытом доступе находятся две версии предобученных весов 5B-модели – базовая и дистиллированная – для генерации от первого лица в сценах на Unreal Engine. В ближайшее время обещают выложить:

модель, обученную на смеси Unreal-сцен и реальных данных,
28B-MoE-модель (2×14B), которая улучшает качество, динамику и обобщение.

Для быстрого старта подготовлен репозиторий с инструкцией по установке, примером генерации и настройками для многопроцессорного инференса.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Помнит минуты: релиз Matrix-Game 3.0, ИИ-движка интерактивного видео в 720p и 40 к/с

Другие новости

Информация