Галлюцинации недели: GPT-5.3-Codex-Spark, Sonnet 4.6 и китайский MoE-десант / Хабр

Шесть флагманских релизов за неделю. Разбираемся, кто реально продвинулся, а кто просто обновил бенчмарки.

GPT-5.3-Codex-Spark, результат партнёрства OpenAI с Cerebras. Заявляют 1000+ tok/sec. Судя по видео, модель работает очень быстро. Контекст 128K (у обычного Codex 400K), но быстрый compacting компенсирует разницу. Groq и Cerebras уже делают быстрый инференс нормой.

Если следующая полноценная модель OpenAI с мощностями Cerebras даст хотя бы 200-300 tok/sec, это может убить главного конкурента в лице Anthropic. Сейчас мы выбираем модель, которая лучше пишет код, но потом будет просто некомфортно работать с моделью, которая выдает 70-80 tok/sec. Как я рассказывал на прошлой неделе, Opus 4.6 Fast в 2.5 раза быстрее обычного Опуса, но в 6 раз дороже. OpenAI за скорость отдельно не берёт, но, чтобы попробовать, нужна подписка Pro за $200.

С момента релиза GPT-5.3-Codex и Opus 4.6 в начале февраля, в твиттере не утихает холивар, всё не могут решить, какая модель лучше. Если вы тоже заинтересовались, вот, по моему мнению, неплохое сравнение. Лично у меня впечатления от этих моделей ровно такие же.

Утром в понедельник я проснулся и увидел новость: OpenAI нанял Питера Штайнбергера, создателя OpenClaw. Возглавит направление персональных агентов. Комьюнити негодует. Сэм Альтман назвал его гением.

А Meta обиделась, что не получилось захантить гения, и релизнула Manus Agents. Очень похоже, что вдохновились OpenClaw.

Мне кажется, если кому сейчас и нужны персональные агенты, так это мобильным устройствам. Особенно Apple с их Siri, про которую уже стыдно вспоминать. Партнёрства то с OpenAI, то с Google Gemini пока не дают результатов.

И пока я это всё писал, Anthropic выпустили Sonnet 4.6. По бенчмаркам подбирается к Opus, а на некоторых задачах (офисная работа, финансовый анализ) даже обходит. Серьёзно улучшили computer use: модель стабильнее управляет интерфейсами и реже ломается на длинных сессиях. Agentic coding 79.6%, почти как у Opus (80.8%). Контекст 1M в бете (ну а где же еще). На следующей неделе постараюсь подбить реальные отзывы о модели.

Не забывайте, что у OpenAI действует акция: Codex доступен даже на бесплатном тарифе и Go, а тем, у кого подписка уже есть, дали увеличенные лимиты. Можно создать новый аккаунт и, если повезет, получите предложение на подписку Plus за ноль рублей ноль копеек.

Anthropic тоже не отстает: 11 февраля был релиз Claude Cowork для Windows, а также на бесплатном тарифе стали доступны функции, за которые раньше приходилось платить. Если не пробовали - попробуйте.

А что Китай? Qwen3.5 от Alibaba: 397B параметров, 17B активных. GLM-5 от Z-ai: 744B параметров, 40B активных. Принцип один: архитектура MoE хранит знания огромной модели, но при инференсе работает маленькая часть. Нагрузка на GPU как у 17-40B, а на бенчмарках конкурируют с Opus. Также ходят слухи о скором релизе DeepSeek v4. Здесь я рассказывал про современные архитектуры LLM.

Unsloth выпустил кастомные Triton-ядра для обучения MoE-моделей. В 12 раз быстрее стандартного обучения, на 35% меньше VRAM, без потери точности. Работает на RTX 3090. Файнтюнинг MoE-моделей под свои задачи на одной видеокарте перестаёт быть фантастикой. Для селфхостеров это, пожалуй, главная новость недели.

Про бенчмарки. Новые китайские модели показывают 70-80% на SWE-Bench Verified. Впечатляет, пока не посмотришь на SWE-rebench. Это более свежий бенчмарк, специально сделанный так, чтобы ответы нельзя было найти в интернете: задачи из репозиториев, которых не было в обучающих данных. Флагман типа Opus 4.6 выдает 51,7%, а китайские "убийцы" сгруппировались в отметке ~40%. SWE-bench превратился в ЕГЭ, где побеждает тот, кто прорешал больше К��Мов, а не тот, кто лучше пишет код.

Seedance 2.0 от ByteDance показал, что text-to-video перешёл порог в "а это точно не настоящее?". Но вместе с качеством приходят вопросы: модель распознала блогера по лицу и воссоздала его голос. Кто-то считает это оверфиттингом, кто-то думает, что ByteDance сам раздул историю для пиара.

Qwen-Image-2.0 сжался с 20B до 7B без потери качества, нативное 2K, рендеринг текста. Мне очень нравится, куда движется генерация изображений, а началась эта магия в августе.

Если на этой неделе у вас есть время попробовать только одну вещь, попробуйте Codex на бесплатном тарифе, пока акция действует. А если две, сравните его с Claude Code на одной и той же задаче. Выводы могут удивить.

Оставайтесь любопытными.

Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт в моем телеграм канале.