720p, сотни попыток и необходимость постобработки: авторы поделились впечатлениями от Sora / Habr

Пример нежелательного артефакта генерации Sora. Подразумевается, что у персонажа вместо лица должна быть гладкая поверхность воздушного шарика. Также компьютерной графикой приходилось убирать верёвочку. fxguide

Инструмент генерации видео по текстовому описанию Sora объявлен, но пока не вышел для всех желающих. Чтобы оценить модель и понять, как её будут использовать, доступ к Sora давали избранным творческим профессионалам. 25 марта компания OpenAI рассказала о первых результатах этих экспериментов. Один из коллективов поделился впечатлениями от модели и назвал недостатки искусственного интеллекта.

15 февраля 2024 года компания OpenAI представила генеративную модель искусственного интеллекта Sora. Этот продукт — модель для генерации видеоклипов по текстовому промпту. На данный момент Sora до сих пор не вышла, доступа к модели для всех желающих нет. Отсутствует даже whitepaper, какой-то минимальный доклад про Sora. Всё, что есть — это красивая веб-страница на сайте компании с рассказом про модель.

Если доступ к Sora и давали, то избранным профессионалам творческой среды. 25 марта OpenAI даже отчиталась о том, что наваяли креативщики. На сайте OpenAI выложили видеоролики и цитаты от авторов. Конечно, для цитат выбрали положительные отзывы об инструменте. Согласно этим выборочным откликам, модель Sora полезна для создания смелого, нового и необычного.

Не все пробы увенчались короткометражками. Некоторые — просто небольшие демонстрации генерации, к примеру, несуществующих животных или невозможной одежды.

Даже если повествование прослеживается, оно всё равно похоже на монтажную склейку небольших экспериментов. Например, один из минутных фильмов — история золотой пластинки «Вояджера-1», информационной капсулы с посланием о человеческой жизни на Земле. Видеозапись длиной в минуту рассказывает про эволюцию материала от зарождения драгоценной руды до полёта в космос в 1977 году. Набор фрагментов беспорядочен и смонтирован с резкими переходами. Как рассказывал сам автор видео, для достижения такого эффекта от Sora он включал в текстовый промпт термины по типу «chaotic», «dynamic movement» и «whip panning».

Ещё один видеоролик Air Head куда более приземлённый и посвящён жизни антропоморфного воздушного шарика по имени Сонни [Sonny]. Серия сцен в стиле псевдодокументалки приправлена саундтреком и словами диктора, который говорит от имени главного персонажа. Сонни рассказывает о своей хрупкости, которая тем не менее не мешает ему полноценно жить.

Air Head снял канадский музыкальный коллектив Shy Kids, известный своим кинотворчеством. Позднее члены коллектива рассказали, как получилось сделать фильм с помощью ИИ.

За стиль работы Shy Kids прозвали «панкроковский Pixar». Коллектив часто прибегает к темам юности, социофобии и сложностям современной жизни, сохраняя при этом эксцентричный и искренний тон. В создании Air Head принимали участие Сидни Лидер [Sidney Leeder] (продюсер) и Уолтер Вудмэн [Walter Woodman] (сценарист и режиссёр).

Sora сгенерировала только видеоряд Air Head. Голос Сонни принадлежит Патрику Седербергу [Patrick Cederberg], который занимался постобработкой фильма. Патрик подобрал и саундтрек картины: это композиция The Wind из каталога Shy Kids. Выбор на этот трек пал практически сразу из-за его названия.

Видеоролик описывает впечатления от Sora в общих словах, не вдаваясь в конкретику. Более подробно шайкидсовцы говорили в комментариях для fxguide

Shy Kids не показал ни один скриншот Sora, но подробно объяснил, как выглядит интерфейс. Сообщается, что на входе нужен текстовый промпт — мультимодальность пока не встроили. Седерберг также рассказал, что возможно неточно задать, в какой момент на протяжении сгенерированного клипа происходит некоторое событие.

Члены Shy Kids поделились наблюдениями о проблемах промптинга:

Sora часто хвалят за понимание объектов: они не исчезают в одном кадре и не появляются из ниоткуда. При этом в интерфейсе отсутствует хоть какой-нибудь механизм сделать так, чтобы объекты из одного кадра появлялись в другом. Это представляет проблему для Air Head: нет единого способа генерировать одинаковый от кадра к кадру шарик-голову.

Более того, fxguide указывает, что результаты генерации Sora могут отличаться даже в том случае, если повторно запустить тот же промпт. Есть ли возможность посмотреть семя генерации или задать собственное, не упоминается.
В Shy Kids пытались выходить из положения максимально детальными описаниями сцен. В промпте указывали тип одежды и шарика. Даже в этом случае модель Sora не всегда выдавала нужный результат.

К примеру, в промпте был «жёлтый шарик», но модель иногда генерировала результаты, где он был другого цвета. Поскольку надувные шарики обычно снабжены верёвочкой для простоты транспортировки, в некоторых случаях без какого-либо указ��ния Sora рисовала у Сонни верёвочку на груди. В части клипов на воздушном шарике появлялось лицо [изображение размещено до ката].
Большинство сцен Air Head сгенерировались в стиле замедленной съёмки, на 50 % или 75 % обычной скорости. Промпт этого не просил. Почему так получилось, Седерберг не понимает. Впрочем, ускорить слоумо в постобработке было легко.
Для Air Head потребовалось сгенерировать сотни клипов от 10 до 20 секунд. Патрик Седерберг утверждает, что общее соотношение исходного материала к конечному составляет 300 к 1. Работа шла в стиле документального фильма: из множества материала выбрали и склеили видеоряд для фона голоса за кадром, гибко адаптируясь в процессе.

В целом Патрик сравнивает промптинг Sora с игровым автоматом.

Не сто́ит думать, что Sora выдаёт готовые фрагменты, которые достаточно было склеить вместе в цельный видеоряд и озвучить. Да, промпты «35 mm film» или, когда нужно, «high contrast» и «key lighting» помогали, но цветокоррекция всё равно требовалась. Для Air Head добавили эффекты зерна и мерцания картинки, чтобы свести клипы вместе. Это значит, что для постобработки нужен специалист-человек.

Управлять движением камеры в Sora сложно. Во всяком случае, «camera pan» в промпте работает 6 из 10 раз, утверждает Седерберг.

Поскольку OpenAI блюдёт авторские права и не даёт генерировать закопирайченный материал, в промптах нельзя указывать названия стилей съёмки по именам известных киноделов. Это значит, что ИИ откажется работать в ответ на фразу «Aronofsky type shot» в промпте или просьбу сделать зум как у Альфреда Хичкока.

У Shy Kids не получилось сгенерировать клип с панорамированием: модель всё равно ставила голову-шарик в центр кадра. К счастью, в Sora есть настройки импорта, включая соотношение сторон видеоролика. Чтобы в итоговом видеоролике была сцена с нужным движением камеры, пришлось сменить соотношение сторон на портретное и вручную создать панорамирование.

fxguide

Седерберг считает, что понимает причину сложностей с движениями камеры. Статичные изображения из датасета обучения нейросети содержат технические детали камеры: относительное отверстие объектива, размер линзы и так далее. Для видеоклипов метаданные движения камеры не описывают. Добиться подобного от датасета тяжело, поскольку даже люди говорят про движения камеры по-своему, без единого словаря.

Наконец, часть клипов требовала компьютерную графику. В некоторых случаях в AfterEffects убирали артефакты по типу лица Сонни, перекрашивали сам шарик или даже выполняли ротоскопирование.

Результат работы Sora. fxguide

Доработанный кадр. Шарик перекрашен, голова человека исчезла. fxguide

Когда OpenAI 25 марта показала первые фильмы от Sora, упоминаний о компьютерной графике не было. С другой стороны, если судить по откровенному рассказу Shy Kids, соглашения о неразглашении если и заключались, то не ограничивают такие подробности, поэтому обвинить компанию не в чем.

Если верить Shy Kids, Sora выдаёт сегменты различной длины по типу 3, 5, 10 или 20 секунд с общим ограничением до 1 минуты на сегмент. Седерберг обычно выбирал полные 20 секунд, чтобы увеличить шансы получить что-то симпатичное, что можно вырезать.

Время рендера варьируется в зависимости от времени суток и загруженности облака OpenAI. Как правило, ждать придётся по 10–20 минут на сегмент. При этом длина сегмента на продолжительность рендера влияет слабо. Согласно опыту Седерберга, клип длительностью любого значения от 3 до 20 секунд рендерится те же 10–20 минут.

На выходе получаются клипы разрешением до 720p. Для быстроты коллектив Shy Kids генерировал в 480p и апскейлил с помощью стороннего нейросетевого инструмента Topaz.

Shy Kids имел доступ к прототипу, и с тех пор часть недостатков Sora могла быть решена. Например, Седерберг неуверенно вспоминает, что импорт видеороликов в разрешении 1080p уже работает, пусть и медленно.

Патрик отмечает, что сотрудники OpenAI мыслят как исследователи, а не киношники. В одном из примеров он упоминает, что от Shy Kids пришёл отзыв, что Sora не хватает метода контроля угла камеры. Хотя это самый базовый язык кинематографа, в OpenAI запросу на такое удивились.