Китайская Kuaishou выпустила Kling 3.0 — видеогенератор, который не просто создает клипы, а самостоятельно режиссирует их. Модель умеет расставлять до шести камер в одной сцене, переключаться между ракурсами и добавлять переходы без участия пользователя. Ранний доступ для подписчиков Ultra открылся 4 февраля, API заработает на следующий день.

Главная новинка — режим Multi-Shot, который Kuaishou называет "AI-режиссером". Пользователь описывает сцену текстом, а модель сама решает, где поставить общий план, где — крупный, и как выстроить монтажную последовательность. Раньше для этого приходилось генерировать клипы по отдельности и склеивать вручную. Теперь система выдает готовый 15-секундный ролик с несколькими склейками за один проход.

Kling 3.0 выходит сразу в трех вариантах. Video 3.0 генерирует клипы длиной до 15 секунд — это на 50% больше, чем у предыдущей версии. Video 3.0 Omni создает видео и звук одновременно: диалоги, музыку и эффекты модель синхронизирует с картинкой нативно, а не накладывает постфактум. Image 3.0 Omni выдает изображения в 4K и поддерживает серийную генерацию — когда нужно сохранить стиль и персонажей на нескольких кадрах.

Kuaishou делает ставку на консистентность: персонаж должен выглядеть одинаково, даже если камера переезжает с общего плана на крупный, а потом возвращается. В компании называют это "сильнейшей консистентностью во вселенной" — маркетинговое преувеличение, но "плавающих лиц" как в ранних в AI-видео действительно нет. Для озвучки добавили японский, корейский и испанский — раньше модель работала только с английским и китайским.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.