Я продолжаю свой квест по прокачке генеративных кадров с целью сделать их более кинематографичными. Разбирая сложности, с которыми я столкнулась при создании музыкального клипа, я выделила главную проблему ИИ – он не понимает пространство. Это лишает ИИ-видео возможности полноценного мизансценирования, а значит, превращает его в анти-кино.
Интеграция 3D-моделей пространства – дело долгое, технически сложное, а идеологически (для продукта массового пользования) – сомнительное. Поэтому я выделила функции, которые кажутся мне реальными, лежащими в зоне ближайшего развития.
Последняя прорывная модель у ведущих генераторов – Veo3. Следующие апдейты никак не приблизили меня к решению моей задачи – получить мизансценический контроль, т.е, быть в полном смысле слова постановщиком.
Есть ощущение, что генеративное видео для широкого пользователя достигло некоего плато и раздумывает, что делать дальше. Вдруг я что-то угадаю?
1. Знание художественного замысла

Нейросеть должна видеть общую картину – замысел всего проекта или хотя бы одной сцены. Я представляю себе строку, куда можно ввести краткое описание если не сценария полнометражного фильма, то хотя бы одной сцены или ситуации, дать контекст: кто чего хочет, чего боится, чем все закончится.
Сейчас мир видео рождается заново с каждой новой генерацией. Если нейросеть знает развязку сцены, она сократит количество потенциальных ошибок и "неуместных" в контексте общего замысла генераций.
Например, я работаю над сценой, где шпионка проникла на секретную базу. Она прячется за дверью со стеклянным окошком. Охранник с той стороны двери останавливается, прислушивается, потом идет дальше. Шпионка выдыхает – ее не заметили. Не зная контекста, Veo3 генерит кадры, где шпионка то встает в полный рост, то громко ругается на себя, то зачем-то открывает дверь, за которой прячется.
2. «Банк персонажей»

Здесь содержатся данные про героев и локации. К ним ии обращается каждый раз, когда персонажи упомянуты. Освобождает от необходимости "напоминать" системе каждый раз, кто как выглядит, обеспечивает стабильность внешности персонажа, в том числе, относительно других персонажей.
Почему обучить модель на фото или сгенерированных картинках персонажа мне недостаточно? Во-первых, «культивация» нескольких персонажей и использование их в одном кадре ведут к путанице (я смотрю на тебя, Krea!) и редактированию стартового фрейма «вручную», а это большая трата времени.
Во-вторых, из-за прыжков с сохраненными картинками от одного генератора к другому можно получить разнородный видеоматериал. У каждого генератора свой стиль, и даже с одинаковыми стартовыми картинками и промтами они выдадут разные по темпо-ритму, пластике и качеству видео.
И в-третьих, даже если лица остаются похожими, фигуры плавают. То генерится тело с детскими пропорциями вместо взрослых, то слишком худое или слишком полное, то высокие и низкие внезапно одинакового роста и т.д.
В текущем состоянии все использованные мной модели ужасно понимают количества и другие описания размеров, вроде «на голову выше» или «размером с ладонь». Точные сантиметры им вообще ни о чем не говорят. Модели обучаются не на конкретных размерах, а на статистике, и усваивают, что «мужчины обычно крупнее женщин», «взрослые обычно крупнее детей».
Мой «банк персонажей» учитывал бы это, создавая памятку, что-то вроде лайн-апа персонажей в анимации или видеоиграх, где видно, кто выше или толще. Тут не надо обучать модель сантиметрам, решать проблему глубины и перспективы. В такой подсказке все плоско, отношения – устойчивые.

Можно пойти дальше, сделать лайн-ап не плоским, а 2,5д. Как раз на днях случился релиз SAM 3D, сервиса Meta. Он позволяет увидеть объемную модель объектов, выделенных из картинок и видео. Увидеть, но не получить – это почти 3D-модель, ее нельзя скачать и использовать в 3D-редакторе. Это набор данных, которые нейросети используют внутри себя для отслеживания движения и поворотов объектов без потери их формы.

Если генератор получит доступ к этим данным, он автоматически сможет ставить всех персонажей в нейтральную позу, собирая из них тот же лайн-ап, но уже не плоский, а обеспечивающий и стабильные пропорции, и верную геометрию, без перехода к дорогому 3D-пайплайну.
3. Постоянно создающееся пространство

В реальном кино есть задача со звездочкой – длинный план. Это признак мастерства, требует тщательной подготовки. Его альтернатива – снимать сцену «монтажно». Т.е один кадр (сложно) против не��кольких (проще).
В ИИ-видео обратная ситуация: сложность возникает именно при создании сцены из нескольких кадров, тк они разные, будто принадлежат разным мирам.
Я хочу, чтобы пространство создавалось по мере продвижения персонажа сколь угодно долго. Это генеративная игра без геймплея, только камера.
4. Звук, создающий пространство

Звук едва ли не в большей степени, чем изображение, «создает» пространство и настроение. В отсутствие стабильного визуального слоя это главный якорь, удерживающий сгенерированный мир от распада.
Голос в лесу и голос в тоннеле звучит по-разному. Сейчас интегрированный в видеогенераторы звук – примитивная подложка под видео, не учитывающая ни пространство, в котором распространяется, ни реверберацию, ни расстояние до источника.
Если записать звук в реальном, похожем на сгенерированное, пространстве, ИИ сможет калибровать акустическую модель гораздо точнее.
Вывод
В каком-то виде предложенные мной функции уже реализуются (streaming video generation, постоянный контекст у Luma Dream Machine), но все это бессистемно и сводится к гонке за секундами: была длина видео 10 секунда, а теперь 15!
Системный подход начнется со специализацией моделей. Если выделятся те, кто будет работать на нужды киноиндустрии, то разработчиками придется думать, как режиссеры. С точки зрения режиссера, не так страшно, что у ИИ-персонажа шесть пальцев, страшно, что их количество не стабильно. Та же история с пространством или световой схемой – их логика должна сохраняться в разных ракурсах и крупностях.
Кстати, говоря о преемственности, я топлю не за «правду жизни» – как раз наоборот, я считаю, что генеративное видео должно найти свои особые выразительные средства, а не гнаться за фотореализмом. Важно именно постоянство персонажа и мира, без них зрителя будет «выбрасывать» из истории.
Следующий шаг в развитии ИИ-видео, вроде интеграции 3D-моделей, предполагает мощный технологический скачок и большие инвестиции. И положа руку на сердце, хочет ли массовый пользователь и сам рынок настоящий 3D-пайплайн? Это сразу повысит порог входа, а хочется создавать видео, не превращаясь в технического директора Pixar.
Сейчас массовые генераторы эксплуатируют эффект магии: пишешь строчку текста, а через минуту смотришь готовое видео. Необходимость располагать фигуры в реальном пространстве, настраивать камеры, думать про свет разрушит очарование.
Мои пожелания позволяют оставить продукт массовым, но обрести милый сердцу постановщика контроль над результатом. Если индустрия хочет вытащить ИИ-видео с текущего плато — это хороший маршрут.
