Sora 2 — это не просто апгрейд, а фактически новая архитектура. Если в первой версии модель использовала трансформер, натренированный на коротких клипах, то теперь это мультислойная диффузионная сеть, способная “понимать” время, движение и контекст в одной последовательности.
Для тех, кому лень читать и интересует вопрос: где взять промпты к Sora 2. Самое простое тут - 100 промптов на русском выложил ТГ-канал "N2D2"
Вместо статичных кадров модель работает с вектором динамики — по сути, она учится понимать физику сцены, а не просто генерировать последовательность изображений.
Вот ключевые технические особенности:
Unified latent space — объединённое пространство для текста, звука и движения.
Temporal coherence — модель учитывает логику кадра во времени (например, если герой поднял руку — она останется поднятой).
Audio-conditioning — возможность синхронизировать звук и движение губ.
Physics-informed attention — новая форма внимания, которая обучена на физических закономерностях (гравитация, столкновения, свет).

Проще говоря, Sora 2 больше не “рисует видео” — она симулирует реальность, а результат уже просто визуализирует.
Почему теперь решают не фильтры, а промпты
Раньше можно было взять короткий запрос вроде “a man walking in the rain” — и получить видео уровня заставки PowerPoint. Теперь всё зависит от того, насколько вы режиссёр в своём промпте.
Официальная логика OpenAI такая:
Промпт — это не инструкция, а “творческая идея”, которую Sora интерпретирует, комбинируя стиль, физику и настроение.
Поэтому короткий промпт = больше свободы для модели (и хаоса),
а детальный промпт = точный результат, но с меньшей креативностью.

Структура “умного промпта”
После сотни тестов я нашел универсальную формулу, которая даёт стабильные и визуально сильные сцены. Она максимально близка к тому, как OpenAI обучала модель “понимать режиссуру”.
[Краткое и яркое описание сцены, стиля и атмосферы]
Кадр: [план и угол, например, "средний план, съёмка с уровня глаз"]
Настроение: [тональность, например, "ностальгическое и умиротворённое"]
Действия:
- [конкретное действие 1, например, "персонаж поворачивается к окну"]
- [конкретное действие 2, например, "легко улыбается"]
Диалог: [если нужен, добавьте короткие и естественные реплики]
Важный момент:
Sora воспринимает время и действия как единое целое — поэтому глаголы (“поднимает”, “смотрит”, “бежит”) влияют на то, как будет двигаться камера и освещение.
Сто готовых промптов, чтобы понять логику работы модели я нашел в ТГ-канале "N2D2". Каждый из этих промптов раскрывает конкретный “режим” восприятия модели.
3 открытия, которые меня удивили
“План” важнее, чем кажется.
Если не указать тип кадра (close-up, wide shot и т.д.) — Sora сама выбирает ракурс. Иногда идеально, иногда абсурдно.Эмоции работают как фильтры.
Слова вроде melancholic, hopeful, cinematic tension меняют не просто цвет и свет, а даже движения персонажей.Комбинации жанров дают магию.
“Cyberpunk ballet”, “noir beach scene”, “romantic horror” — такие гибриды активируют неожиданные паттерны из обучающих данных.
Что у нас по итогу
Sora 2 — первая модель, которая делает не просто “контент”, а динамическую визуальную мысль. Именно поэтому к ней нельзя подходить как к инструменту. Это режиссёр, оператор и монтажёр в одном лице — нужно просто говорить на её языке.
Как думаете скоро мы увидим Netflix полностью наполненный ИИ-фильмами?