Alibaba выпустила мультимодальный ИИ Qwen3.5-Omni — он пишет код по видеозаписи экрана / Хабр

Команда Qwen (Alibaba Cloud) представила Qwen3.5-Omni — новое поколение мультимодальной модели, которая принимает на вход текст, изображения, аудио и видео, а на выходе генерирует текст и речь в реальном времени. Модель выпущена в трех размерах — Plus, Flash и Light — и доступна через Offline API и Realtime API.

Главное отличие от предшественника Qwen3-Omni — масштаб. Контекстное окно выросло с 32 до 256 тысяч токенов: модель обрабатывает более 10 часов аудио или около 400 секунд видео 720p за один запрос. Распознавание речи теперь охватывает 113 языков и диалектов (было 19), синтез — 36 (было 10). Оба компонента архитектуры — Thinker и Talker — перешли на Hybrid-Attention MoE, а предобучение проводилось на более чем 100 миллионах часов мультимодальных аудио-видеоданных.

По бенчмаркам версия Plus показала SOTA-результаты на большинстве из 36 аудио- и аудио-видео бенчмарков, а также по десяткам языков в распознавании и переводе речи. В общем аудиопонимании, распознавании, переводе и диалоге модель обошла Gemini 3.1 Pro, а в аудио-видео понимании вышла на его уровень. В генерации речи Qwen3.5-Omni-Plus обогнала ElevenLabs, GPT-Audio и Minimax по стабильности голоса на 20 языках. Текстовые и визуальные способности при этом не просели — они на уровне текстовых Qwen3.5 того же размера.

Среди новых возможностей — семантическое прерывание (модель отличает реальную реплику пользователя от фонового шума), клонирование голоса, управление скоростью, громкостью и эмоцией речи, а также встроенные WebSearch и FunctionCall. Отдельно Alibaba выделяет технику ARIA (Adaptive Rate Interleave Alignment): она динамически выравнивает текстовые и речевые токены, устраняя пропуски слов и нечёткое произношение чисел при стриминге.

Неожиданным побочным эффектом мультимодального масштабирования стала способность, которую в Alibaba назвали Audio-Visual Vibe Coding: модель смотрит видеозапись экрана с аудиоинструкциями и пишет работающий код — без текстового промпта. В компании подчеркивают, что эту способность не тренировали целенаправленно — она возникла как эмерджентное свойство.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.