Компания xAI обновила свой видео-ИИ Grok Imagine, а также добавила доступ к нему по API. Модель заняла третье место в рейтинге Video Arena с ELO 1375 — выше только Veo 3.1-audio (1395) и Veo 3.1-fast-audio (1383) от Google.

Также она удерживает первое место в Text-to-Video на Artificial Analysis (ELO 1248). В задачах редактирования модель побеждает в 57% случаев против Kling и в 64% против Runway — особенно в точности следования инструкциям.

Цена API — $4.20 за минуту видео с нативным аудио. Для сравнения: Veo 3.1 Preview стоит $12 за минуту, Sora 2 Pro — $30 за минуту. При этом Grok Imagine генерирует видео менее чем за 15 секунд — это самый быстрый показатель среди топовых моделей. В веб-версии модель бесплатна, но длительность генерации ограничена 6 секундами.

Модель поддерживает генерацию из текста и изображений с нативным аудио — музыкой, диалогами и звуковыми эффектами в одном проходе. Максимальное разрешение — 720p, длительность — до 15 секунд. xAI позиционирует Grok Imagine как инструмент для быстрого создания контента в соцсетях, а не для производства длинных роликов в высоком разрешении.

Запуск происходит на фоне международного скандала: в январе Малайзия и Индонезия заблокировали Grok из-за злоупотреблений с генерацией откровенных изображений, а Еврокомиссия и власти Великобритании ведут расследования. Несмотря на давление регуляторов, xAI продолжает агрессивно развивать генерацию медиа.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.