Команда из ByteDance и Наньянского технологического университета разработала систему, которая обеспечивает согласованность видео, сгенерированных искусственным интеллектом, в разных сценах. Этот подход сохраняет ключевые кадры из ранее сгенерированных сцен и использует их в качестве ориентиров для новых.

Современные видеомодели на основе ИИ, такие как Sora, Kling и Veo, демонстрируют впечатляющие результаты для отдельных видеороликов длительностью в несколько секунд. Однако объединение нескольких сцен в связный сюжет выявляет фундаментальную проблему: персонажи меняют свой внешний вид от сцены к сцене, окружение выглядит непоследовательно, а визуальные детали смещаются.

По словам исследователей, предыдущие решения столкнулись с дилеммой. Обработка всех сцен вместе в одной модели приводит к резкому увеличению вычислительных затрат. Генерация каждой сцены отдельно и их последующее объединение приводит к потере согласованности между разделами.

Система StoryMem использует третий подход. Она сохраняет выбранные ключевые кадры в банке памяти во время генерации и ссылается на них для каждой новой сцены. Это позволяет модели иметь представление о том, как выглядели персонажи и окружение ранее в сюжете.

Четыре кинопленки демонстрируют разные сюжетные линии, сохраняя при этом единый визуальный стиль и стабильное изображение персонажей в нескольких сценах
Четыре кинопленки демонстрируют разные сюжетные линии, сохраняя при этом единый визуальный стиль и стабильное изображение персонажей в нескольких сценах

Интеллектуальный выбор позволяет эффективно управлять памятью

Вместо хранения каждого сгенерированного кадра алгоритм выбирает визуально значимые изображения, анализируя их содержимое и определяя семантически различные кадры. Второй фильтр проверяет техническое качество и отбрасывает размытые или зашумленные изображения.

В банке памяти используется гибридная система. Ранние ключевые изображения остаются в качестве долговременных ссылок, в то время как более поздние изображения сменяются в скользящем окне. Это позволяет контролировать размер памяти, не теряя при этом важную визуальную информацию из начала истории.

При создании новой сцены сохраненные изображения подаются в модель вместе с создаваемым видео. Специальное кодирование положения, называемое RoPE (Rotary Position Embedding), гарантирует, что модель интерпретирует кадры памяти как предшествующие события. Исследователи присваивают сохраненным изображениям отрицательные временные индексы, чтобы модель рассматривала их как прошлые события.

StoryMem хранит ключевые кадры и использует их для каждой новой сцены, чтобы обеспечить единообразие персонажей и фона на протяжении всего фильма
StoryMem хранит ключевые кадры и использует их для каждой новой сцены, чтобы обеспечить единообразие персонажей и фона на протяжении всего фильма

Адаптивное извлечение ключевых кадров с семантической дедупликацией

Практическое преимущество этого подхода заключается в снижении трудозатрат на обучение. Конкурирующие методы требуют обучения на длинных, непрерывных видеопоследовательностях, которые редко доступны в высоком качестве. StoryMem работает с адаптацией LoRA (Low-Rank Adaptation) существующей модели Wan2.2-I2V с открытым исходным кодом от Alibaba.

Команда обучала модель на 400 000 коротких видеороликах, каждый из которых длился пять секунд. Они сгруппировали ролики по визуальному сходству, чтобы модель научилась генерировать согласованные продолжения из связанных изображений. Расширение добавляет всего около 0,7 миллиарда параметров к модели с 14 миллиардами параметров.

В примере с уличным музыкантом StoryMem обеспечивает единообразие персонажей и окружения во всех пяти сценах, в то время как другие методы дают непоследовательные результаты
В примере с уличным музыкантом StoryMem обеспечивает единообразие персонажей и окружения во всех пяти сценах, в то время как другие методы дают непоследовательные результаты

Результаты контрольных тестов показывают значительное повышение стабильности.

Исследователи разработали собственный эталонный тест под названием ST-Bench для оценки. Он включает 30 историй с 300 подробными инструкциями к сценам, охватывающими стили от реалистичных сценариев до сказок.

Согласно исследованию, StoryMem демонстрирует значительные улучшения в согласованности между сценами. Он показывает результаты на 28,7% лучше, чем немодифицированная базовая модель, и на 9,4% лучше, чем HoloCine, который исследователи называют предыдущим передовым решением. StoryMem также получил наивысший балл по эстетике среди всех протестированных методов, оптимизированных для обеспечения согласованности.

Результаты количественного анализа подтверждаются данными пользовательского исследования. Участники отдали предпочтение результатам работы StoryMem по сравнению со всеми базовыми вариантами в большинстве категорий оценки.

Метод

Эстетическое качество

Подсказка для дальнейшего просмотра

Стабильность поперечных бросков

Глобальный

Однозарядный

Wan2.2-T2V

0.6452

0.2174

0,2452

StoryDiffusion + Wan2.2-I2V

0.6085

0.2288

0.2349

IC-LoRA + Wan2.2-I2V

0.5704

0.2131

0.2181

HoloCine

0,5653

0.2199

0.2125

Данная платформа поддерживает два дополнительных варианта использования. Пользователи могут загружать собственные эталонные изображения в качестве отправной точки для банка памяти: например, фотографии людей или мест. Затем система генерирует историю, в которой эти элементы присутствуют ��а протяжении всего повествования. Она также обеспечивает более плавные переходы между сценами. Вместо резкого монтажного перехода система может использовать последний кадр одной сцены в качестве первого кадра следующей.

Сложные сцены по-прежнему представляют собой проблему.

Исследователи отмечают некоторые ограничения. Система испытывает трудности со сценами, содержащими много персонажей. Банк памяти хранит изображения, не присваивая их конкретным персонажам, поэтому при появлении нового персонажа модель иногда может некорректно применять визуальные свойства.

В качестве обходного пути исследователи рекомендуют явно описывать персонажей в каждом запросе. Переходы между сценами с очень разной скоростью движения также могут выглядеть неестественно, поскольку связь между кадрами не передает информацию о скорости.

Страница проекта с дополнительными примерами уже доступна. ST-Bench будет выпущен в качестве эталонного теста для дальнейших исследований. Исследователи опубликовали весовые коэффициенты на Hugging Face.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник