
Стартап Linum выпустил две text-to-video модели с открытыми весами под лицензией Apache 2.0. Модели генерируют ролики длиной 2-5 секунд в разрешении до 720p и содержат всего 2 млрд параметров — их можно запустить локально на видеокарте с 20+ ГБ памяти. Веса доступны на Hugging Face.
За проектом стоят братья Сахил и Ману Чопра из Сан-Франциско — выпускники Стэнфорда и UC Berkeley, прошедшие акселератор Y Combinator в 2023 году. Они начали работу над Linum осенью 2022-го, когда Stable Diffusion взорвал сообщество генеративного ИИ. Первая версия, выпущенная в январе 2024 года, была 180p GIF-ботом на базе Stable Diffusion XL. Братья быстро поняли, что надстройка над чужой моделью — тупик: image-VAE не понимает временну́ю связность кадров, а без оригинальных обучающих данных плавный переход от изображений к видео невозможен.
Для v2 команда построила пайплайн с нуля: T5 для кодирования текста, VAE от Wan 2.1 для сжатия видео и собственный DiT-бэкбон, обученный методом flow matching. Основная часть двухлетней работы ушла на создание пайплайнов фильтрации данных — братья вручную размечали эстетические свойства видео, а затем дообучали VLM для автоматической фильтрации сотен лет видеоматериала.
Модель лучше всего справляется с мультипликационными стилями, сценами с едой и природой, простыми движениями персонажей. Сложная физика, быстрое движение и генерация текста пока даются плохо. Генерация 5-секундного 720p-ролика занимает около 15 минут на H100.
Конечная цель Linum — снизить порог входа в анимацию. По словам основателей, производство инди-мультфильма вроде «Потока» обходится в $3-4 млн, и они хотят сократить эту сумму на порядок. В ближайших планах — пост-тренинг для улучшения физики, дистилляция для ускорения генерации, добавление аудио и масштабирование модели.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
