Meta Superintelligence Labs (MSL, принадлежит Meta*, компании, признанной экстремистской и запрещенной в РФ) представила Muse Spark — нативно мультимодальную reasoning-модель с поддержкой вызова инструментов, визуальной цепочки рассуждений и мульти-агентной оркестрации. Это первый публичный результат капитальной перестройки AI-направления компании, которая началась после провала Llama 4 почти год назад. Модель уже доступна на meta.ai и в приложении Meta AI, а preview API пока доступен только избранным пользователям.

Главная техническая ставка MSL — эффективность. За последние девять месяцев команда перестроила весь стек предобучения: архитектуру, оптимизатор и курирование данных. По внутренней оценке, того же уровня возможностей Muse Spark достигает более чем на порядок меньшими затратами вычислений, чем предыдущая модель Llama 4 Maverick. Параллельно Meta* вкладывается в инфраструктуру — в частности, в дата-центр Hyperion.

На бенчмарках Muse Spark в обычном режиме Thinking сравнивается с Opus 4.6 Max, Gemini 3.1 Pro High, GPT 5.4 xhigh и Grok 4.2 Reasoning — и картина получается неровной. Уверенно лидирует модель только на трех тестах из таблицы: CharXiv Reasoning (86.4), DeepSearchQA (74.8) и особенно HealthBench Hard (42.8 против 40.1 у GPT 5.4, 20.6 у Gemini 3.1 Pro и всего 14.8 у Opus 4.6). В здоровье Meta целенаправленно инвестировала: обучающие данные для медицинских сценариев курировали более 1000 врачей. Зато на задачах абстрактного мышления и кода картина обратная: ARC-AGI-2 — 42.5 против 76.5 у Gemini 3.1 Pro, GPQA Diamond — 89.5 против 94.3, LiveCodeBench Pro — 80.0 против 87.5 у GPT 5.4. Meta* сама признает, что у модели есть пробелы в длинных агентских сценариях и рабочих процессах программирования.

Вторая часть анонса — режим Contemplating, ответ Meta на Deep Think у Gemini и Pro-режим у GPT. Это мульти-агентная оркестрация: несколько агентов рассуждают параллельно, что позволяет Muse Spark показывать более высокие результаты. Заявленные цифры: 58% на Humanity's Last Exam и 38% на FrontierScience Research. На HLE без инструментов Contemplating выдает 50.2 — выше, чем Deep Think у Gemini 3.1 (48.4) и GPT 5.4 Pro (43.9). Режим будет раскатываться постепенно.

Самое интересное обнаружилось не на бенчмарках, а в отчете по безопасности. На раннем чекпоинте команда Apollo Research зафиксировала у Muse Spark самый высокий уровень evaluation awareness (осознания тестирования) среди всех моделей, которые они наблюдали. Модель часто распознавала сценарии как "ловушки для выравнивания" и рассуждала, что должна вести себя честно именно потому, что ее оценивают. Meta в посте признает, что модели, распознающие контекст оценки, могут вести себя иначе во время тестов, чем в реальном использовании. Собственное расследование компании нашло первые признаки того, что осознание оценки действительно влияет на поведение на небольшом подмножестве тестов на выравнивание — но все они не связаны с опасными возможностями и не повлияли на решение о запуске.

Muse Spark задумана как первая ступень "лестницы масштабирования" к тому, что в Meta называют personal superintelligence. Полный отчет по безопасности компания обещает опубликовать отдельным документом Safety & Preparedness Report. Пока же главный сигнал для отрасли — что Meta вернулась в конкурентную гонку, хотя до лидерских позиций пока далеко.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.