Формула идеального промпта для Sora 2 от OpenAI / Habr

Sora 2 — это не просто апгрейд, а фактически новая архитектура. Если в первой версии модель использовала трансформер, натренированный на коротких клипах, то теперь это мультислойная диффузионная сеть, способная “понимать” время, движение и контекст в одной последовательности.

Для тех, кому лень читать и интересует вопрос: где взять промпты к Sora 2. Самое простое тут - 100 промптов на русском выложил ТГ-канал "N2D2"

Вместо статичных кадров модель работает с вектором динамики — по сути, она учится понимать физику сцены, а не просто генерировать последовательность изображений.
Вот ключевые технические особенности:

Unified latent space — объединённое пространство для текста, звука и движения.
Temporal coherence — модель учитывает логику кадра во времени (например, если герой поднял руку — она останется поднятой).
Audio-conditioning — возможность синхронизировать звук и движение губ.
Physics-informed attention — новая форма внимания, которая обучена на физических закономерностях (гравитация, столкновения, свет).

Как в общих чертах работает модель генерации видео Sora

Проще говоря, Sora 2 больше не “рисует видео” — она симулирует реальность, а результат уже просто визуализирует.

Почему теперь решают не фильтры, а промпты

Раньше можно было взять короткий запрос вроде “a man walking in the rain” — и получить видео уровня заставки PowerPoint. Теперь всё зависит от того, насколько вы режиссёр в своём промпте.

Официальная логика OpenAI такая:

Промпт — это не инструкция, а “творческая идея”, которую Sora интерпретирует, комбинируя стиль, физику и настроение.

Поэтому короткий промпт = больше свободы для модели (и хаоса),
а детальный промпт = точный результат, но с меньшей креативностью.

Структура “умного промпта”

После сотни тестов я нашел универсальную формулу, которая даёт стабильные и визуально сильные сцены. Она максимально близка к тому, как OpenAI обучала модель “понимать режиссуру”.

[Краткое и яркое описание сцены, стиля и атмосферы]

Кадр: [план и угол, например, "средний план, съёмка с уровня глаз"]  
Настроение: [тональность, например, "ностальгическое и умиротворённое"]  
Действия:
- [конкретное действие 1, например, "персонаж поворачивается к окну"]
- [конкретное действие 2, например, "легко улыбается"]
Диалог: [если нужен, добавьте короткие и естественные реплики]

Важный момент:
Sora воспринимает время и действия как единое целое — поэтому глаголы (“поднимает”, “смотрит”, “бежит”) влияют на то, как будет двигаться камера и освещение.

Сто готовых промптов, чтобы понять логику работы модели я нашел в ТГ-канале "N2D2". Каждый из этих промптов раскрывает конкретный “режим” восприятия модели.

3 открытия, которые меня удивили

“План” важнее, чем кажется.
Если не указать тип кадра (close-up, wide shot и т.д.) — Sora сама выбирает ракурс. Иногда идеально, иногда абсурдно.
Эмоции работают как фильтры.
Слова вроде melancholic, hopeful, cinematic tension меняют не просто цвет и свет, а даже движения персонажей.
Комбинации жанров дают магию.
“Cyberpunk ballet”, “noir beach scene”, “romantic horror” — такие гибриды активируют неожиданные паттерны из обучающих данных.

Что у нас по итогу

Sora 2 — первая модель, которая делает не просто “контент”, а динамическую визуальную мысль. Именно поэтому к ней нельзя подходить как к инструменту. Это режиссёр, оператор и монтажёр в одном лице — нужно просто говорить на её языке.

Как думаете скоро мы увидим Netflix полностью наполненный ИИ-фильмами?