Исследователи из Стэнфордского университета представили FramePack — архитектуру для локальной генерации видео на потребительских видеокартах. Разработчики отмечают, что для работы системе достаточно всего 6 ГБ видеопамяти.

Архитектура FramePack построена на принципе сжатия контекста входных кадров до постоянной длины. Это позволяет обеспечить постоянную нагрузку на процесс генерации, независимо от продолжительности видео. Также система использует сжатый контекст для предсказания следующих кадров. Благодаря этому получается реализовать прогрессивную покадровую генерацию.
Эти методы помогли исследователям добиться локальной генерации роликов даже на видеокартах ноутбуков. Например, модель с 13 млрд параметров можно запустить на GPU с 6 ГБ видеопамяти. Этого достаточно для генерации ролика продолжительностью до 60 секунд.

Разработчики проекта рекомендуют запускать FramePack на видеокартах Nvidia серий RTX 30, 40 и 50. Важно, чтобы устройство поддерживало форматы FP16 и BF16. Видеокарта RTX 3050 с 4 ГБ памяти не подойдёт — слишком мало памяти. На RTX 4090 время генерации достигает 2,5 секунды на кадр, а с ускорением TeaCache — 1,5 секунды на кадр.
Код FramePack открыт и опубликован на Github. На странице проекта разработчики поделились подробным описанием метода.