Вышла видеомодель Kling 2.6 с нативным аудио — ее называют конкурентом Veo 3.1 и Sora 2 / Хабр

Китайская компания Kuaishou 3 декабря представила Kling 2.6 — первую версию своего видеогенератора с нативной генерацией звука. Модель создает видео и аудио в одном проходе: диалоги, закадровый голос, звуковые эффекты и фоновый амбиент задаются текстовым промптом и синхронизируются с картинкой автоматически.

Модель уже доступна через партнерские сервисы: Artlist, Higgsfield, ImagineArt и ElevenLabs. Генерация стоит около $0,07 за секунду без звука и $0,14 со звуком — то есть 5-секундный ролик с голосом обойдётся примерно в $0,70.

Kling 2.6, в отличие от более ранних версий, не думает покадрово, а пытается читать запрос как целую сцену. Модель держит непрерывность сюжета и пространства (логика сцены, положение объектов), отслеживает персонажей, одежду, реквизит и правила движения, чтобы не ломать композицию.

По характеристикам новинка соперничает с Google Veo 3.1 и OpenAI Sora 2. Kling 2.6 генерирует видео до 10 секунд в разрешении 1080p. Поддерживаются английский и китайский языки с возможностью управлять тоном, эмоцией и темпом голоса. По данным Kuaishou, модель на 15% лучше справляется со сложными инструкциями по сравнению с версией 2.5, а стоимость генерации снизилась примерно на 30% — до 25 «поинтов» за 5 секунд видео на родной платформе.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.