Как стать автором
Обновить
388.47
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

ИИ генерирует длинные видео: возможное решение проблемы вычислительных требований

Время на прочтение3 мин
Количество просмотров798

Исследователи разработали метод создания более длинных и связных видеороликов с искусственным интеллектом, которые рассказывают сложные истории.

Несмотря на то, что в последние месяцы качество видео, создаваемых ИИ, значительно улучшилось, ограничения по продолжительности остаются серьёзной проблемой.

Максимальная продолжительность видео Sora от OpenAI составляет 20 секунд, MovieGen от Meta* — 16 секунд, а Veo 2 от Google — всего 8 секунд. Теперь команда из Nvidia, Стэнфордского университета, Калифорнийского университета в Сан-Диего, Калифорнийского университета в Беркли и Техасского университета в Остине представила решение: слои для обучения во время тестирования (TTT-слои), которые позволяют создавать видео продолжительностью до одной минуты.

Основная проблема существующих моделей связана с механизмом «самовнимания» в архитектурах трансформеров. Этот подход требует, чтобы каждый элемент в последовательности был связан со всеми остальными элементами, из-за чего вычислительные требования растут в квадратичной зависимости от длины. 

Для видеороликов продолжительностью в минуту, содержащих более 300 000 токенов, это становится непосильной задачей с точки зрения вычислений.

Рекуррентные нейронные сети (RNN) представляют собой потенциальную альтернативу, поскольку они обрабатывают данные последовательно и хранят информацию в «скрытом состоянии», а вычислительные требования линейно зависят от длины последовательности. Однако из-за своей архитектуры традиционные RNN с трудом улавливают сложные взаимосвязи в длинных последовательностях.

Инновация исследователей заменяет простые скрытые состояния в обычных рекуррентных нейронных сетях небольшими нейронными сетями, которые непрерывно обучаются в процессе создания видео. Эти слои TTT работают вместе с механизмом самовнимания.

На каждом этапе обработки мини-сеть обучается распознавать и восстанавливать закономерности в текущем фрагменте изображения. Это создаёт более сложную систему памяти, которая лучше сохраняет согласованность в более длинных последовательностях, обеспечивая единообразие комнат и персонажей на протяжении нескольких сцен. Аналогичный подход к обучению во время тестирования показал успех в бенчмарке ARC-AGI в конце 2024 года, хотя эта реализация опиралась на LoRA.

Команда продемонстрировала свой подход на примере мультфильмов «Том и Джерри». Их набор данных включает около семи часов мультфильмов с подробными описаниями людей.

Пользователи могут описывать свои видеоидеи с разной степенью конкретности:

  1. Краткое изложение в 5-8 предложениях (например, «Том с удовольствием ест яблочный пирог за кухонным столом. Джерри с тоской смотрит на него...»)

  2. Более подробный сюжет, состоящий примерно из 20 предложений, каждое из которых соответствует 3-секундному отрезку

  3. Подробная раскадровка, в которой каждый 3-секундный фрагмент описывается абзацем из 3-5 предложений с подробным описанием фона, персонажей и движений камеры.

Исследователи использовали CogVideo-X — предварительно обученную модель с 5 миллиардами параметров, которая изначально генерировала только 3-секундные клипы. Интегрировав слои TTT, они постепенно обучили модель работать с более длинными отрезками — от 3 секунд до 9, 18, 30 и, наконец, 63 секунд.

Механизмы самовнимания, требующие больших вычислительных мощностей, применяются только к 3-секундным сегментам, в то время как более эффективные слои TTT работают глобально во всём видео, снижая вычислительные требования. Каждое видео генерируется моделью за один проход, без последующего редактирования или монтажа. Полученные видео рассказывают связные истории, охватывающие несколько сцен.

Несмотря на эти достижения, у модели всё ещё есть недостатки: объекты иногда меняются при переходе от сегмента к сегменту, неестественно парят в воздухе или резко меняют освещение.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Теги:
Хабы:
+1
Комментарии0

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
veseluha