
Обычно к середине весны рабочий ритм устаканивается, превращаясь в привычную череду тасков, созвонов и коммитов. Единственное, что мешает этой стабильности — регулярные апдейты технологий, которые вынуждают снова обновлять свой набор инструментов. Этот месяц не стал исключением: OpenAI выпустили GPT-5.4 с нативным доступом к компьютеру, Google ответили шустрой Gemini 3.1 Flash-Lite, а Anthropic дали Claude еще больше свободы на рабочем столе.
Но одними обновлениями чат-ботов дело не ограничилось. В этом выпуске рассказываем, как Google сделали эмбеддинги мультимодальными, действительно ли MiniMax M2.7 участвовал в собственной разработке и чем Claude удивил самого Дональда Кнута. А на десерт — традиционная подборка новых утилит и свежих исследований. Давайте вместе смотреть, что принес нам март!
Навигация
Свежие релизы
OpenAI
GPT-5.3 Instant: меньше морали и галлюцинаций
В OpenAI наконец прислушались к фидбэку пользователей про GPT-5.2. Они признали, что модель порой вела себя как инструктор по технике безопасности: длинные вступления про границы допустимого, моральные оговорки там, где их никто не просил. В новой версии GPT-5.3 Instant такую манеру убрали — чат-бот реже отказывает там, где отказ не нужен, и просто отвечает по существу, что, казалось бы, и должен делать чат-бот. Заодно почистили словарный запас от фраз в духе «остановись и выдохни» — в блогпосте OpenAI сами написали, что это «выглядело кринжово».

Работу с веб-поиском тоже попытались привести в достойное состояние. В первую очередь улучшили синтез ответов — раньше модель могла вывалить список ссылок вместо связного анализа, теперь она лучше сочетает найденное со своими знаниями, выдавая более осмысленный контекст без лишней воды. По внутренним оценкам OpenAI, галлюцинации снизились на 26,8% при работе с вебом и на 19,7% без него. Погонять обновку уже можно в чате и API. Что касается прошлой 5.2, ее тихонько отправили доживать свой век в раздел Legacy, где она просуществует до июня 2026 года.
GPT‑5.4: computer use и агентная инфраструктура
Следом на арену выпустили GPT-5.4 Thinking и ее старшую версию Pro — модели, заточенные под сложные агентные сценарии. Это первые модели OpenAI с нативным computer use. Не через отдельный инструмент, а встроенно — модели могут самостоятельно кликать по интерфейсам, вводить текст и работать в браузере через библиотеки вроде Playwright. На OSWorld-Verified результат 75% против 47,3% у GPT-5.2 и выше человеческого порога в 72,4%.

А вот что действительно выглядит полезным — это новый механизм Tool Search в API. Если раньше при работе с обширным набором инструментов приходилось скармливать модели все определения функций прямо в промпте и сжигать на этом десятки тысяч токенов, то теперь бот получает лишь краткую сводку доступных инструментов. Полное описание функции подтягивается в контекст только в момент ее реального вызова. На тесте с 36 MCP-серверами потребление токенов упало на 47% при том же качестве. Контекстное окно расширили до 1 млн токенов, пока экспериментально в Codex.

В веб-интерфейсе ChatGPT тоже появились приятные мелочи: модель теперь заранее показывает план своих рассуждений, чтобы вы могли в случае чего наставить ее на путь истинный, не дожидаясь конца генерации. Но за возросшие возможности придется платить: базовая GPT-5.4 стоит $2,50 за миллион токенов на вход и $15 на выход, а версия Pro обойдется в суровые $30 и $180 соответственно. В OpenAI, конечно, успокаивают, что благодаря улучшенной логике и тому же Tool Search вы будете тратить меньше токенов в целом. Охотно верим, но кошельки все равно готовим.
GPT-5.4 mini и nano: меньше, быстрее, дешевле
Вслед за флагманом OpenAI выпустили два младших варианта — mini и nano. Логика здесь понятная: не каждая задача требует полной мощности GPT-5.4, а гонять тяжелую модель там, где достаточно легкой — накладно и медленно.
Версия mini позиционируется как золотая середина. На бенчмарке SWE-bench Pro она выдает 54,4% (почти догоняя старшую 5.4 с ее 57,7%), но при этом работает в два раза быстрее и стоит $0,75 на вход и $4,50 на выход. Идеальный кандидат на роль подмастерья в агентных системах: пока большая модель планирует архитектуру, mini параллельно шуршит по файлам и ищет нужные куски кода. Для совсем же простых задач вроде классификации или извлечения данных выпустили ультрабюджетную nano ($0,20/$1,25 за миллион токенов).

Версия mini уже доступна в API, Codex и чате, а nano, в свою очередь, только через API.
ChatGPT for Excel: больше никаких мучений с формулами
Теперь и у ChatGPT есть свой for Excel. Это полноценная надстройка, которая живет прямо внутри таблиц и работает на базе GPT-5.4. Модель умеет читать структуру документа, понимает зависимости между ячейками и может самостоятельно писать или обновлять формулы по текстовому запросу.

Заявлено, что бот может собрать финансовую модель с нуля, подтянуть данные и даже объяснить, почему поехала вон та итоговая цифра на третьем листе. Чтобы не натворить дел в корпоративных отчетах, перед каждым изменением ИИ спрашивает разрешения, а все действия можно откатить. Параллельно добавили интеграции с Moody's, Dow Jones Factiva, MSCI и рядом других поставщиков финансовых данных — чтобы не переключаться между источниками вручную. Пока бета, пока только США, Канада и Австралия, и пока только для Business, Enterprise и платных планов. ChatGPT для Google Sheets обещают следом.
Codex Security: агент для поиска уязвимостей
Когда-то это был внутренний проект под кодовым названием Aardvark — теперь OpenAI открыли его всем как Codex Security, агента для поиска уязвимостей в коде. Идея в том, чтобы не просто запускать статический анализатор, а строить контекст: система изучает репозиторий, генерирует кастомную модель угроз под конкретный проект и ищет уязвимости уже с пониманием того, что и как в нем работает. Находки по возможности валидируются в изолированной среде — чтобы отличить реальную проблему от теоретической. За 30 дней бета-тестирования агент просканировал больше 1,2 миллиона коммитов, выявив 792 критические и 10 561 высокоприоритетную находку.

Из показательных примеров: по ходу бета-теста удалось снизить количество ложных срабатываний (false positives) на 50%, а уровень «шума» в некоторых репозиториях упал на 84%. OpenAI также используют Codex Security для сканирования опенсорсных проектов, на которые сами же опираются, и уже передали данные об уязвимостях мейнтейнерам OpenSSH, GnuTLS, PHP, Chromium и ряда других — 14 CVE уже получили официальные идентификаторы. Сейчас инструмент в research preview, бесплатно на первый месяц для Pro, Enterprise, Business и Edu, а для мейнтейнеров крупных открытых проектов обещают сделать отдельную программу поддержки с бесплатным доступом.
Anthropic
Перенос памяти в Claude через CTRL+C, CTRL+V
В связи с ростом популярности на фоне событий с Пентагоном, Anthropic решили снизить порог перехода на Claude для тех, кто не хочет начинать общение с чистого листа. Механика простая донельзя: вам дают готовый промпт, вы вставляете его в ChatGPT или любой другой сервис, получаете выгрузку всего, что там про вас накоплено, и вставляете результат в настройки памяти Claude.

Технически это не интеграция и не API — просто хорошо составленный запрос на экспорт данных. Работает ровно настолько, насколько честно другая модель хранит и отдает свои воспоминания о вас. Но окажется ли выгрузка полной на практике — вопрос открытый.
К слову, Google оперативно подсуетились и выпустили аналогичную функцию. Работает так же через промпт, который можно найти в настройках.
Code Review в Claude Code: ревью без пропусков
Anthropic запустили Code Review для Claude Code — систему автоматического ревью pull request'ов с помощью команды агентов. Когда открывается PR, несколько агентов параллельно разбирают диф в контексте всей кодовой базы: ищут баги, верифицируют находки в изолированной среде, чтобы отсеять ложные срабатывания, ранжируют по критичности — и выдают один сводный комментарий плюс инлайн-замечания по конкретным строкам.

Если верить создателям, на внутренних тестах Anthropic доля PR, получивших реальные замечания, выросла с 16% до 54%, при этом специалисты соглашаются с ИИ в 99% случаев. В качестве примера приводят кейс, где бот отловил однострочное изменение в продакшн-сервисе, которое сломало бы аутентификацию, а ответственный за это дело инженер потом признал, что сам бы не заметил.
Есть и честный минус, который Anthropic сами же и называют: это дорого. Среднее ревью обходится в $15–$25 и занимает около 20 минут — стоимость масштабируется с размером PR. Для команд с высоким темпом коммитов и режимом «ревью на каждый пуш» счет может расти быстро. Пока в research preview для Team и Enterprise, с настройкой через CLAUDE.md и отдельный REVIEW.md под правила конкретного репозитория.
Claude Cowork: ваш компьютер теперь в заложниках (ради вашего же блага)
Anthropic продолжают развивать свою, пожалуй, самую смелую фичу — Computer Use. Теперь ИИ получает полноценный доступ к вашему рабочему столу в приложениях Claude Cowork и Claude Code. Идея в том, что если у агента нет готовой API-интеграции (например, для Slack или Google Calendar), он не сдается, а просто берет виртуальную мышку, открывает браузер, кликает по кнопкам и делает все сам. Никакой сложной настройки — просто дали права и пошли пить кофе.
Чтобы фича заиграла новыми красками, ее скрестили с недавно выпущенной функцией Dispatch. Теперь вы можете ехать в метро, вспомнить про недоделанный пулл-реквест, написать об этом в приложении на телефоне, и Claude на вашем оставленном дома компьютере сам откроет IDE, прогонит тесты и оформит PR. Звучит, конечно, как магия, но разработчики честно предупреждают: технология пока местами сыровата. Сложные задачи порой требуют второго захода, да и работа через экран заведомо медленнее прямых интеграций.

Вопросы безопасности тоже стоят остро. Отдавать ИИ полный контроль — затея для сильных духом, поэтому Anthropic внедрили автоматическое сканирование на предмет prompt injection, чтобы злоумышленник через левый сайт не заставил бота снести вам систему. Некоторые приложения закрыты для ИИ по умолчанию, а сам процесс всегда можно прервать кнопкой «Стоп». Пока фича доступна только для пользователей macOS на тарифах Pro и Max.
Gemini 3.1 Flash-Lite: дешевле, быстрее и с рубильником для размышлений
Google тоже не остались в стороне от гонки бюджетных моделей и выпустили Gemini 3.1 Flash-Lite, самую быструю и дешевую модель в линейке Gemini 3. За $0,25 на вход и $1,50 на выход за миллион токенов разработчики получают модель, которая, по заявлениям Google, обходит прошлую версию 2.5 Flash и по качеству, и по скорости: время до первого токена (TTFT) сократилось в 2,5 раза, а общая скорость вывода выросла на 45%.

На бенчмарках тоже все красиво: 1432 Elo на LMArena и внушительные 86,9% на GPQA Diamond. Но куда интереснее то, что в AI Studio и Vertex AI для этой модели завезли настраиваемый уровень мышления (thinking levels). Это значит, что вы можете сами решать, где модели нужно дешево и быстро отфильтровать спам или перевести большие массивы текста, а где — потратить чуть больше ресурсов на генерацию сложного дашборда или парсинг запутанной инструкции. Уже доступно в режиме preview в AI Studio и Vertex AI.
Gemini Embedding 2: один вектор для всего
Если вы когда-нибудь пытались строить RAG-системы или поиск по смешанным данным, то знаете, какая это боль — плодить отдельные пайплайны для текста, картинок и аудио, а потом пытаться все это склеить. Google решили эту проблему на архитектурном уровне, выпустив Gemini Embedding 2 — свою первую нативно мультимодальную модель эмбеддингов.
Она берет текст (до 8192 токенов), картинки (до 6 штук за раз), видео (до 2 минут) и даже сырое аудио без промежуточной транскрипции, и укладывает все это в единое векторное пространство. Более того, модель понимает чередующийся контент, так что в одном запросе можно передать картинку вперемешку с текстом, и она уловит контекст.

Для тех, кто переживает за место в базе данных, сохранили поддержку технологии Matryoshka Representation Learning (MRL). Это значит, что дефолтную размерность в 3072 можно динамически ужимать до 1536 или 768 — в зависимости от того, что вам важнее — максимальная точность или экономия места. Модель уже доступна в публичном превью через Gemini API и Vertex AI, и, судя по отзывам ранних тестеров, работает это действительно неплохо.
Lyria 3 Pro: 3 минуты музыки
Не успели мы поиграться с Lyria 3, как спустя месяц Google выпустили Pro-версию новинки. Главное новшество — увеличение длины треков до 3 минут и появление «структурной осознанности». Если раньше ИИ генерировал звуковой поток по настроению, то теперь модель понимает концепцию куплетов, припевов, интро и бриджей. Можно прямо в промпте расписать тайминг и переходы, собирая композицию как конструктор.
Google активно раскатывают новинку по всей своей экосистеме. Разработчики получили доступ к модели через AI Studio, Gemini API и корпоративный Vertex AI. Для простых смертных Lyria 3 Pro интегрировали в платную версию чат-бота Gemini и в гугловское приложение для создания видео Vids, чтобы генерировать фоновую музыку для презентаций, не отходя от кассы. Также движок подключили к свежему коллаборативному инструменту ProducerAI.
Gemini 3.1 Flash Live: ИИ-голос, который понимает ваши вздохи
Но на музыке Google решили не останавливаться. Компания выпустила Gemini 3.1 Flash Live — модель, заточенную под голосовое взаимодействие в реальном времени. Главный упор сделали на способность ИИ адекватно реагировать на хаос человеческой речи. В Google утверждают, что новая модель научилась улавливать акустические нюансы вроде высоты тона и темпа речи. Если вы начнете нервничать или путаться в словах, бот должен динамически подстроить свой тон, а не продолжать монотонно зачитывать ответ, как робот из колл-центра.
В подкрепление своих слов разработчики выкатили метрики: на бенчмарке ComplexFuncBench Audio, который тестирует многошаговые вызовы функций с различными ограничениями, модель набирает 90,8%.

На Scale AI's Audio MultiChallenge — 36,1% в режиме thinking. Этот бенчмарк специально проверяет, как модель справляется со сложными инструкциями и долгими задачами в условиях реального голосового общения — с паузами, перебиваниями и сменой темы. Для рядовых пользователей это означает более быстрый отклик и контекст разговора, который держится вдвое дольше.
Microsoft
Phi-4-reasoning-vision-15B: компактная модель с избирательным мышлением
Microsoft продолжают гнуть свою линию с серией Phi: меньше параметров, больше здравого смысла в архитектурных решениях. На этот раз выпустили мультимодальную Phi-4-reasoning-vision-15B — модель, которая умеет работать с текстом, изображениями, документами и интерфейсами и при этом влезает в скромное железо. Она обучалась всего на 200 миллиардах мультимодальных токенов против триллиона с лишним у сопоставимых конкурентов вроде Qwen и Kimi-VL.

С технической точки зрения тут много интересного. Инженеры Microsoft провели масштабный ресерч архитектур визуальных энкодеров и выяснили, что методы нарезки изображений вроде популярного Dynamic S2 проигрывают нативно динамическому разрешению. В итоге выбор пал на энкодер SigLIP-2 (вариант Naflex), который динамически адаптирует количество патчей под исходник. Разница особенно заметна на высокодетализированных интерфейсах — на ScreenSpot-Pro Dynamic S2 дает 9,4%, тогда как Naflex с расширенным лимитом токенов добирается до 17,5%.
Второй важный момент — подход к ризонингу. Разработчики не стали заставлять модель «думать» над каждым запросом. Вместо этого они замешали датасет в пропорции 80/20: 80% данных (распознавание текста, простые вопросы по картинке) тренируют модель отвечать сразу, а 20% (математика, наука, сложные графики) содержат цепочки рассуждений. В итоге модель сама решает, когда нужно развернуть мысль на абзац, а когда — просто выдать ответ, экономя время и токены. Ну а если она ошиблась с выбором режима, пользователь может принудительно дернуть рубильник через специальные токены <think> и <nothink>. Модель уже доступна на HuggingFace и Microsoft Foundry под пермиссивной лицензией.
MAI-Image-2: обновление генеративной модели Microsoft
Подразделение Microsoft AI (MAI) тоже не сидит без дела и выпускает новую версию своей генеративной линейки — MAI-Image-2.
Помимо улучшенного фотореализма кожи и освещения, упор сделан на адекватный рендеринг типографики — классический набор болей, который мучает генераторы изображений последние пару лет. Модель научили стабильно генерировать читабельный текст: от вывесок на заднем плане до полноценных инфографик, меню кафе и постеров со сложной версткой. В Microsoft заявляют, что модель уже ворвалась в топ-3 на Arena.ai, потеснив старичков.

Пощупать генератор можно в MAI Playground, а скоро он начнет расползаться по экосистеме и появится в API для разработчиков на Microsoft Foundry. Заодно компания похвасталась, что уже запустила свой новый кластер на базе Nvidia GB200, так что недостатка в вычислительных мощностях для следующих поколений явно не предвидится.
Mistral
Mistral Small 4: один за всех и все за одного
У Mistral накопилось несколько специализированных моделей — Magistral для рассуждений, Pixtral для мультимодальных задач, Devstral для агентного кодинга. Держать зоопарк и каждый раз выбирать нужную — неудобно, поэтому все это объединили в одну Small 4. Архитектурно это MoE на 128 экспертах с 4 активными на токен, 119B параметров суммарно и 6B активных при инференсе, контекстное окно 256к. Модель принимает текст и изображения, что для Small-класса само по себе редкость.
Интереснее всего — параметр reasoning_effort. При значении none модель ведет себя как обычный чат-ассистент с низкой латентностью, при high — разворачивает полноценный chain-of-thought в духе Magistral. На практике это означает, что одну и ту же модель можно использовать и для быстрых ответов, и для сложного ризонинга, просто меняя один параметр в запросе. На LiveCodeBench Small 4 с reasoning обходит GPT-OSS 120B, производя при этом на 20% меньше токенов — что в масштабе реально влияет на стоимость инференса. Модель выходит под Apache 2.0 и уже доступна на HuggingFace, в API Mistral и через NVIDIA NIM.

Mistral Forge: корпоративный конструктор моделей
Параллельно Mistral запустили Forge — платформу для обучения моделей на внутренних корпоративных данных. Идея не новая: вместо того чтобы пытаться запихнуть всю внутреннюю документацию в контекст через RAG, можно обучить модель на ней напрямую — через pretraining, post-training и RL под конкретные политики и процессы компании. На выходе получается модель, которая знает внутренний словарь, понимает специфику workflows и принимает решения в рамках операционных ограничений, а не общих предположений.

Среди уже заявленных партнеров — ASML, Ericsson, Европейское космическое агентство и несколько оборонных структур Сингапура. Словом, аудитория у системы серьезная и с высокими требованиями к безопасности и комплаенсу. Публичных технических деталей о самой платформе пока минимум, так что оценивать здесь, по большому счёту, нечего — ждем кейсов.
MiniMax M2.7: самостоятельная модель
Китайский стартап MiniMax выкатил модель M2.7, которая (если верить их отчету) всерьез занялась саморазвитием. Главная фишка релиза — глубокая интеграция агентных механик и способность модели самостоятельно дописывать себе «обвязку» (harness) для улучшения результатов.

В качестве иллюстрации MiniMax приводят классный кейс: они заставили M2.7 участвовать в 22 соревнованиях по машинному обучению на базе бенчмарка MLE Bench Lite. Модели дали простую петлю обратной связи: она писала код, запускала обучение, анализировала логи, ругала сама себя в markdown-файле за ошибки и шла на следующий круг оптимизации. За 24 часа автономной работы на одной GPU A30 агент набил 9 золотых медалей, показав средний винрейт 66,6% (на уровне Gemini-3.1) и совсем немного уступив флагманским Opus-4.6 и GPT-5.4.
Но куда интереснее ее поведение в дикой природе. Разработчики утверждают, что натравливали M2.7 на падающий продакшен: модель сама сопоставляла метрики мониторинга с таймлайном деплоя, лезла в базу данных проверять гипотезы, находила пропущенные миграции индексов и даже догадывалась создать индекс в неблокирующем режиме (чтобы не положить базу окончательно), прежде чем кидать пулл-реквест.
Помимо кодинга, в модель нативно зашили поддержку Agent Teams — мультиагентного взаимодействия, где разные ИИ-роли могут спорить друг с другом ради лучшего результата.

Этот подход отлично ложится на сложную рутину: M2.7 научили ковыряться в годовых отчетах, строить финансовые прогнозы в Excel и паковать выводы в шаблоны PowerPoint. На профильном бенчмарке GDPval-AA новинка набрала 1495 Elo, обогнав всех опенсорсных конкурентов, что звучит как серьезная заявка на лидерство среди открытых моделей.
Новости индустрии
Anthropic против Пентагона: второй акт
Эпопея со столкновением этики Anthropic и амбиций американских военных, о которой мы писали в прошлом месяце, переросла в открытую войну. В конце февраля Дональд Трамп публично назвал Anthropic «радикально левой компанией», приказав всем федеральным ведомствам немедленно прекратить использование их технологий. Следом министр обороны Пит Хегсет официально объявил стартап «риском для цепочки поставок», попытавшись отрезать компанию от любых госконтрактов.

Однако громкие политические заявления тут же разбились о суровую реальность. Как выяснили журналисты WSJ, буквально через несколько часов после официального бана американские военные... продолжили активно использовать Claude во время ударов по Ирану 1 марта. Выяснилось, что ИИ от Anthropic уже глубоко интегрирован в боевые системы через платформу Palantir: модель помогала выбирать цели, выдавать координаты и анализировать результаты ударов в реальном времени. В итоге Пентагону пришлось неловко признать, что вытащить нейросеть из работающих процессов по щелчку пальцев невозможно, и для «изгнанной» компании, скрипя зубами, ввели переходный период в шесть месяцев.
Тем временем конфликт закономерно перешел в юридическую плоскость. В начале марта Anthropic подали в суд на администрацию Трампа, требуя признать статус «угрозы нацбезопасности» незаконным и сфабрикованным. И, судя по первым слушаниям, правосудие пока на стороне разработчиков. Федеральная судья Рита Лин открыто назвала действия Пентагона «тревожными» и больше похожими на попытку «покалечить компанию», чем на реальную защиту государства.
Конкуренты параллельно не теряют времени даром. Сэм Альтман не упустил момент и договорился с Пентагоном — причем, согласно блогпосту, на условия с более жесткими гарантиями, чем у предыдущего соглашения: облачное развертывание, сохраненный safety stack, сотрудники OpenAI в контуре для контроля. По сути OpenAI провели те же самые границы, из-за которых Anthropic попали в немилость. Дарио Амодей, согласно слитым внутренним перепискам, уже окрестил эту сделку «театром безопасности», что выглядит более чем резонно. В общем, запасаемся попкорном и ждем продолжения.
«Cancel ChatGPT»: пользователи голосуют отписками
Как можно догадаться, на OpenAI свалилось много хейта. Однако проблемы с аудиторией у компании начались задолго до скандальной сделки с Пентагоном. Еще в начале года в сети начало набирать обороты движение QuitGPT. Изначально пользователи массово отменяли 20-долларовую подписку Plus из-за банального недовольства качеством свежей GPT-5.2 и излишней водянистости бота. Но вскоре к техническим претензиям добавились политические. Выяснилось, что президент OpenAI Грег Брокман с женой задонатили суммарно $25 млн в MAGA Inc. Трампа. Добавил масла в огонь и тот факт, что иммиграционная полиция (ICE) использует GPT-4 для скрининга резюме на фоне жестких действий агентов службы. Для части американской аудитории это стало триггером, и протест начал приобретать идеологический окрас.

На эту и без того разгоряченную публику в начале марта упала новость о контракте с Минобороны США. На фоне принципиального отказа Anthropic сотрудничать с военными, согласие Сэма Альтмана выглядело для многих как окончательная «продажа принципов». Реакция пользователей была мгновенной: хештег #CancelChatGPT вырвался в топы X и Reddit, а количество удалений мобильного приложения ChatGPT подскочило на 295% за сутки. Насколько это реально угрожает бизнесу компании с 900 миллионами еженедельных пользователей — вопрос, конечно, отдельный.
Парадоксально или ожидаемо, но главным бенефициаром этой политической драмы стал именно принципиальный Дарио Амодей — на волне бойкота OpenAI приложение Claude впервые вырвалось на первое место в американском App Store, а количество загрузок увеличилось в 20 раз по сравнению с январем.
Инсайдерский трейдинг добрался до OpenAI
На днях стало известно, что OpenAI уволили одного из своих разработчиков за использование конфиденциальной информации для заработка на платформе Polymarket. CEO по приложениям Фиджи Симо сообщила об этом внутри компании, не называя имен.

Но, судя по анализу платформы Unusual Whales, этот сотрудник был далеко не единственным. Аналитики нашли как минимум 77 сомнительных позиций с 60 криптокошельков, которые подозрительно удачно ставили на даты релизов Sora, GPT-5 и возвращение Сэма Альтмана на пост CEO. Проблема усугубляется тем, что Polymarket не дает комментариев и работает на блокчейне Polygon, что означает анонимность транзакций.
Это первый задокументированный случай увольнения в крупной технологической компании за инсайдерскую торговлю на предсказательных рынках — но вряд ли последний.
Claude Opus 4.6 удивил даже Дональда Кнута
Живая легенда компьютерных наук и автор фундаментального труда «Искусство программирования» Дональд Кнут опубликовал эмоциональное эссе, в котором признался: ему придется пересмотреть свое отношение к генеративному ИИ. Причиной стала математическая задача о направленных гамильтоновых циклах, над которой Кнут безуспешно бился несколько недель для нового тома своей книги. Его друг Филип Стапперс ради эксперимента скормил условие задачи недавно вышедшей модели Claude Opus 4.6. То, что произошло дальше, Кнут назвал «драматическим прорывом в автоматической дедукции».

Claude провел 31 полноценную «исследовательскую итерацию» и перепробовал все: от DFS-поиска до simulated annealing. Затем модель поняла, что эвристики не работают, переформулировала задачу через «слоевые координаты» (fiber coordinates) и в итоге написала алгоритм на Python, который нашел общее решение для всех нечетных размерностей (m). После всей проведенной работы, Кнут вручную расписал строгое математическое доказательство решения Claude, а другие энтузиасты чуть позже подключили к задаче GPT-5.3-Codex и GPT-5.4 Pro. Первый нашел решение для четных размерностей, второй получил этот алгоритм на вход и самостоятельно написал 14-страничную статью с математическим обоснованием. В конце своего эссе Кнут философски подытожил: «Мы живем в очень интересные времена. [...] Да пребудет с вами сила».
Nvidia больше не хочет «кормить» OpenAI и Anthropic
На недавней конференции Дженсен Хуанг неожиданно заявил, что Nvidia, скорее всего, больше не будет инвестировать в OpenAI и Anthropic. Официальная причина звучит безобидно: обе компании готовятся к IPO в этом году, и «окно возможностей закрывается». Однако на деле всё выглядит как попытка дистанцироваться от токсичных активов. Ранее сделки имели откровенно круговой характер, но в недавнем раунде OpenAI доля Nvidia сжалась с обещанных $100 млрд до «скромных» $30 млрд. Компании просто нет смысла надувать этот пузырь дальше — она и так отлично зарабатывает на железе.
Вторая, куда более веская причина для отступления — репутационные риски. OpenAI и Anthropic сейчас тянут индустрию в полярно разные стороны из-за контрактов с Пентагоном. А если добавить к этому недавнее выступление CEO Anthropic в Давосе, где он сравнил продажу американских чипов в Китай с «продажей ядерного оружия Северной Корее» (прямой камень в огород Nvidia), становится понятно, почему Хуанг решил отойти в сторону.
Энтерпрайз любой ценой
Чтобы не дать Anthropic отхлопать себе слишком большую часть рынка, OpenAI перешли к методам агрессивного маркетинга, предлагая private equity фондам условия, больше похожие на отчаянный подкуп. Идея в том, чтобы создать совместные предприятия с фондами и принудительно внедрить свои ИИ-продукты в сотни портфельных компаний. Чтобы перебить предложения конкурентов, OpenAI включили режим невиданной щедрости: инвесторам предлагают гарантированную минимальную доходность в 17,5% и приоритетный доступ к новым моделям. Anthropic, для сравнения, подобных золотых гор не обещают.
Смысл такой схемы прост: переложить огромные первоначальные затраты на внедрение и кастомизацию моделей на плечи совместных предприятий, чтобы не портить себе отчетность перед IPO. Кроме того, это создает жесткий вендор-лок — если компания интегрировала ИИ в свои процессы, перейти на конкурента будет больно и дорого. Однако не все фонды готовы пойти на такой шаг. Например, гигант Thoma Bravo от участия отказался, резонно отметив, что у подобных затей сомнительный профиль долгосрочной прибыли, а доступ к моделям у них и так есть без заморозки миллиардного капитала.
Nvidia делает ставку на стартап Миры Мурати
Дженсен Хуанг быстро нашел, куда пристроить освободившиеся миллиарды. Nvidia объявили о масштабном партнерстве со стартапом Миры Мурати Thinking Machines Lab. Речь идет о создании вычислительной инфраструктуры гигаваттного масштаба на базе систем следующего поколения Vera Rubin, которые начнут развертывать уже в начале следующего года. При этом Nvidia не просто отгрузят чипы, но и заходят в проект как прямой инвестор.

Для Миры Мурати это мощный аппаратный буст: получить эксклюзивный доступ к новейшей архитектуре Vera Rubin на старте — это фактически пропуск в высшую лигу без очереди. Для Nvidia же это отличный способ вырастить лояльного чемпиона с нуля.
Откровения перед IPO: OpenAI признала зависимость от Microsoft
OpenAI активно рассылают инвесторам документы (фактически — черновик проспекта к IPO), чтобы дособрать еще $10 млрд сверх недавнего раунда и зафиксировать оценку в $730 млрд. Самое интересное там — раздел с рисками. Компания впервые официально и прямо назвала свою зависимость от Microsoft фундаментальной угрозой. И хотя это стандартная юридическая формулировка, цифры говорят сами за себя: Microsoft владеет 27% коммерческой части OpenAI и предоставляет львиную долю вычислительных мощностей, без которых бизнес Альтмана может рухнуть.
Помимо Microsoft, в проспекте упоминаются и другие подводные камни. Компания опасается конфликта вокруг Тайваня (без чипов TSMC все остановится), признает обязательства по покупке вычислительных мощностей на астрономические $665 млрд до 2030 года и перечисляет судебные тяжбы. В их числе — суды с Илоном Маском и 14 исков от семей погибших, обвиняющих ChatGPT в доведении до самоубийства. Назвать это «стандартным юридическим раскрытием» — значит сильно приукрасить действительность. Перед нами портрет компании, которая несется к IPO с долгами размером в ВВП средней страны и критической зависимостью от соседа, который в любой момент может превратиться из арендодателя в угрозу стабильности.
Sora уходит на покой: OpenAI закрывает видео-сервис и сворачивает сделку с Disney
Sora — всё. OpenAI свернули и сам сервис, и партнерство с Disney на $1 млрд, объяснив это желанием сосредоточиться на робототехнике и агентных системах. Цифры на деле объясняют решение лучше любого пресс-релиза: за всё время существования Sora принесла $1,4 млн выручки, в то время как ChatGPT за тот же период заработал $1,9 млрд. Эксперты открыто называют сервис «черной дырой для ресурсов» с минимальной монетизацией и запредельными юридическими рисками.

Disney теперь в поиске других партнеров, а инсайдеры подтвердили, что за время действия сделки с OpenAI реальные деньги так и не перешли из рук в руки. Проект, который в 2024 году обещал отправить Голливуд на пенсию, разбился о беспощадную математику.
Когда нейросети реально работают во благо: история спасения собаки от рака
Пол Конингем — дата-инженер из Сиднея — узнал, что его собака Рози умирает от рака тучных клеток. Операции и тяжелая химиотерапия лишь замедляли рост огромной опухоли, и врачи давали собаке всего несколько месяцев жизни. Отказавшись сдаваться, ее хозяин решил подойти к лечению как к data science задаче. С помощью ChatGPT он составил план действий, и первым шагом в нем стало секвенирование ДНК. Пол заплатил $3000 лаборатории UNSW за сравнительный анализ здоровой ДНК из крови и ДНК из опухоли. Дальше в ход пошли биоинформатические пайплайны для поиска мутаций, AlphaFold для идентификации мутировавших белков, и отдельные алгоритмы для подбора мишеней и препаратов. К ученым UNSW мужчина пришел с готовым анализом. Команда нашла подходящий иммунотерапевтический препарат — но фармкомпания отказала в доступе к нему. План почти рухнул, но в лаборатории предложили альтернативу — сделать кастомную мРНК-вакцину.

На основе данных Пола в Институте РНК при UNSW синтезировали кастомную вакцину в виде наночастиц — дизайн mRNA тоже строился на алгоритме, который он написал сам. После трех месяцев борьбы с бюрократией за этическое одобрение, Рози сделали первые инъекции в декабре 2025 года. Огромная опухоль на лапе уменьшилась вдвое, а собака, которой давали пару месяцев жизни, снова начала гоняться за кроликами. Пол уже готовит вторую итерацию вакцины для тех опухолей, что не ответили на первую, а ученые всерьез обсуждают потенциал такого симбиоза гражданской науки и ИИ для онкологии.
Полезные инструменты
Автоматизация пайплайнов и MLOps
Symphony: опенсорсный оркестратор от OpenAI, который переводит работу с агентами на уровень управления проектами. Сам берет задачи из Linear и выдает готовые пулл-реквесты с анализом сложности.
Autoresearch: автономный агент от Андрея Карпаты, который самостоятельно итерирует обучение маленькой LLM на одной GPU — сам правит train.py, запускает пятиминутные сессии и сохраняет или откатывает изменения по метрикам.
Skore: инструмент для автоматической оценки ML-моделей из scikit-learn. Генерирует отчеты по оценке качества, визуальные диагностики и сводки кросс-валидации.
confingy: библиотека для отслеживания конфигурации экспериментов напрямую через аргументы конструктора, без отдельного слоя YAML-файлов.
Среды разработки и локальные ИИ
Unsloth Studio: локальный no-code комбайн для подготовки данных, файн-тюнинга и инференса LLM. Обучает модели в 2 раза быстрее с экономией до 70% VRAM благодаря кастомным Triton-ядрам.
DeerFlow 2.0: рантайм для создания иерархий ИИ-агентов на базе LangGraph. Главный агент делегирует задачи суб-агентам в изолированных Docker-контейнерах, не раздувая общий контекст.
Enia Code: ИИ-ассистент для программирования, который изучает кодовую базу команды и начинает проактивно подсвечивать ошибки под ваши стандарты.

Claude Code Game Studios: шаблон для развертывания виртуальной геймдев-студии внутри Claude Code. Организует 48 специализированных ИИ-агентов в строгую иерархию для совместной разработки игр.
Работа с данными и научными исследованиями
Briefs от AlphaXiv: лента научных статей в стиле X. Выдает главные графики и выводы с возможностью быстрого перехода к чату с ИИ-ассистентом для разбора текста.
Ziptable: минималистичный сервис для шеринга небольших датасетов, кодирующий данные прямо в URL без использования внешних серверов.
kuva: UNIX-нативная утилита для научной визуализации, принимающая данные через shell и умеющая рендерить графики прямо в терминал.
Claude Skills for R Users: набор инструкций для Claude, обучающих модель современным практикам R: tidyverse, Quarto, Shiny и релизные чеклисты для пакетов.
Продуктивность и утилиты
Glaze: утилита от команды Raycast для быстрого создания десктопных приложений под macOS по текстовому описанию.
Scheduled: агент, живущий в Gmail: читает входящие, проверяет доступность в календаре и самостоятельно составляет ответы на запросы о встречах.
MuleRun: персональный AI-агент на облачной VM. Работает в фоне и накапливает контекст о рабочих привычках и предпочтениях пользователя.

Voxtral WebGPU: браузерный сервис для транскрибации аудио в реальном времени, работающий локально через WebGPU без отправки данных на сервер.
Бизнес, дизайн и медиа
Fundable: поисковик по стартапам и инвесторам через запросы на естественном языке с возможностью настроить алерты по заданным критериям.
Cardboard: видеоредактор, принимающий исходники и текстовое описание монтажа. Сам строит черновую нарезку и поддерживает поиск по содержимому клипов.
Rekreate: генератор статических продуктовых фотографий для маркетплейсов с соблюдением стилистики бренда.
Kodo: ИИ-генератор, выдающий полностью редактируемые макеты постеров, слайдов и графики для соцсетей по текстовому описанию.
Исследования на почитать
Архитектура и механика моделей
Внимание вместо накопления: новый механизм остаточных связей
MoonshotAI предложили дополнить стандартные остаточные соединения (residual connections) механизмом внимания: сеть делится на блоки, внутри которых работает привычное накопление, а между блоками каждый слой сам решает, на какие выходы предыдущих слоев опираться. Это решает проблему размытия сигнала на большой глубине сети и делает сходимость более быстрой и стабильной — Block AttnRes достигает сопоставимого лосса при 1.25× меньшем объеме вычислений относительно бейзлайна.
Трудности обратного распространения: как выходной слой языковой модели ограничивает поток градиентов
Исследователи обнаружили, что низкоранговый softmax на выходе модели уничтожает до 99% обратного градиента. Это открытие доказывает, что подобная архитектурная особенность сильно тормозит обучение и снижает эффективность вычислений, даже если выразительности самой нейросети вполне достаточно для решения задачи.
Эксклюзивное внутреннее внимание
Новый метод принудительно убирает из расчета внимания тот компонент, который выровнен с вектором значений самого токена. В результате модель лишается возможности «смотреть сама на себя» и вынуждена сильнее опираться на окружающий контекст, что стабильно снижает перплексию без существенных затрат на вычисления.
Всплеск, разреженность и сток: анатомия массивных активаций и стоков внимания
Ученые разобрали природу массивных выбросов и «раковин внимания» (attention sinks) в декодерах, показав, что они возникают из-за специфики нормализации, размерности пространства внимания и длины контекста при обучении. Оказывается, каждый эффект можно устранить на этапе претрейна без какой-либо потери качества языкового моделирования.
Прогрессивный разогрев остаточных связей для предобучения LLM
Авторы придумали плавно масштабировать вес остаточных соединений от нуля до единицы в процессе обучения. Это позволяет сначала стабилизировать ранние слои, а уже затем подключать глубокие, что улучшает масштабирование архитектур размером от 71 млн до 7 млрд параметров.
Обучение, дистилляция и файнтюнинг
Дистилляция байесовского мышления в LLM
В Google придумали, как научить модели обновлять свои убеждения по ходу диалога, дистиллировав в них логику классического автомата Байеса. В итоге модель начинает вести себя ближе к байесовскому оптимуму и переносит выученный принцип обновления убеждений на задачи, на которых ее явно не обучали.
Doc-to-LoRA: гиперсети для генерации адаптеров из документов
SakanaAI предлагает генерировать LoRA-адаптеры через гиперсеть: документ кодируется через замороженную LLM и за один прямой прогон без градиентных обновлений превращается в адаптер объемом менее 50 МБ независимо от длины документа. При инференсе метод работает с контекстами до 40K токенов, сохраняя 82,5% точности SQuAD по сравнению с полным контекстным окном.

Text-to-LoRA: адаптация моделей под задачу через текстовое описание
Второй метод от той же команды, где текстовое описание задачи прогоняется через энкодер, который вместе с обучаемыми эмбеддингами слоя генерирует матрицы A и B для всех целевых слоев сразу. В zero-shot на незнакомых задачах метод набирает средний балл 67,7 по 10 бенчмаркам против 66,3 у мультизадачной LoRA и 55,8 у базовой модели без адаптации.
Обучение диффузионных моделей без внешних энкодеров
Исследователи из Black Forest Labs и MIT предложили механизм асимметричного зашумления токенов, заставляющий модель саму выстраивать сильные семантические связи для восстановления картинки. Метод использует самообучение через экспоненциальное скользящее среднее (EMA) и впервые позволил превзойти выравнивание с внешними энкодерами вроде DINOv2 на задачах генерации.
Сглаживание градиентов политики
Новый алгоритм умножает градиент на сигмоиду с фиксированной температурой, чтобы штрафовать слишком маловероятные действия и не трогать те, что уже хорошо выучены. Это защищает модель от деструктивных обновлений весов при обучении с подкреплением и делает процесс таким же стабильным, как при классической кросс-энтропии.
Плотные скопления экспертов вокруг предобученных весов
Авторы работы показали, что в пространстве параметров рядом с базовыми весами скрывается плотная сеть узкоспециализированных конфигураций под конкретные задачи. Выяснилось, что простая случайная выборка с последующим ансамблированием позволяет существенно улучшить модель без сложного и дорогого пост-тренинга.
Семантические трубки как надстройка над авторегрессионным обучением
Исследователи добавили к авторегрессионному обучению вспомогательную функцию потерь, которая минимизирует перпендикулярные компоненты отклонений скрытых состояний от вычисленных геодезических траекторий, формируя так называемую «семантическую трубку» (semantic tube). Этот подход повышает соотношение сигнала к шуму, увеличивает разнообразие генерации и делает обучение LLM более эффективным в условиях ограниченного набора данных — по сравнению с чистым предсказанием следующего токена.
Оптимизация инференса и работа с памятью
Векторизация префиксных деревьев для LLM
Инженеры YouTube и Google DeepMind перенесли логику ограничений генерации (например, фильтрацию невалидных видео в рекомендациях) из классического дерева в статическую разреженную матрицу. Это позволило аппаратно векторизовать вычисления на TPU и сделать декодирование в 948 раз быстрее, чем при использовании стандартного префиксного дерева на CPU.

Сжатие KV-кэша без потери точности
Команда Google разработала алгоритм квантования, объединяющий геометрическое выравнивание векторов и кодирование ошибки одним знаковым битом. При квантовании до 3 бит метод уменьшает размер KV-кэша в 6 раз без деградации качества; четырехбитный вариант ускоряет вычисление attention-логитов до 8 раз на H100 по сравнению с 32-битными ключами.
Запись контекста градиентным спуском во время инференса
Метод предлагает на лету оптимизировать небольшую группу токенов памяти через самоконтролируемую функцию потерь, не трогая основные веса сети. Это позволяет компактно упаковывать огромные объемы контекста всего за пару шагов обновления, кратно превышая емкость обычного прямого прохода.
Управление активациями через гиперсети
Исследователи предложили генерировать управляющие векторы с помощью гиперсети поверх уже дообученной инструкционной модели. Подход работает стабильнее и лучше масштабируется, чем прямое вмешательство в активации, и на held-out промптах достигает качества метода steering-via-prompting.
Гибридная память для динамических сцен
Авторы предложили разделить память мировых видеомоделей на архив для статичного фона и активный трекер для движущихся объектов. Благодаря токенизации памяти и пространственно-временному поиску модель перестает «забывать» или искажать персонажей, если они временно перекрыты другими предметами в кадре.
Управление агентами через гибридную память
Ученые разработали метод совместного RL-обучения параметров модели и обновления внешней непараметрической памяти прямо в процессе взаимодействия со средой. Агент использует направленные вызовы к памяти для расширения исследования мира, что заметно повышает результаты на бенчмарках воплощённого обучения (embodied reasoning).
Агенты, рассуждение и написание кода
LLM-агенты в поиске лекарств от рака
Стэнфорд и PHD Biosciences натравили систему из 37 тысяч виртуальных исследователей на базу клинических испытаний для поиска закономерностей успеха медпрепаратов. Агенты не только вывели новую метрику оценки на базе клеточной специфичности, но и предложили аналитический дизайн стратегии разработки потенциального ADC-препарата против опухолей.
Агентное рассуждение при работе с кодом
Новый подход предлагает снабжать LLM-агентов полуформальными структурированными сертификатами, содержащими трассировку кода и доказательства для каждого теста. Выяснилось, что это кратно улучшает качество локализации багов и верификации патчей без необходимости запускать код на выполнение.
Качество кода от LLM глазами мейнтейнеров
Ручная проверка почти трехсот сгенерированных агентами пулл-реквестов показала, что автогрейдеры слишком оптимистичны. Около половины решений, успешно прошедших бенчмарк SWE-bench, живые разработчики бы отклонили из-за низкого качества кода, поломки смежного кода или ошибок в ключевой логике.
Помогают ли агентам готовые навыки?
Анализ использования шаблонных скиллов в ИИ-разработке показал, что в среднем они дают прирост в 1,2% к успешности прохождения тестов. Большинство инструментов оказываются бесполезными на практике, а в проектах со специфическими конвенциями применение стандартных утилит и вовсе сбивает модель с толку.
Как рассуждение открывает параметрическую память
Исследователи доказали, что генерация цепочки мыслей (CoT) помогает модели извлекать связанные фактические фрагменты из параметров, используя токены рассуждения как вычислительный буфер, — вместе они расширяют охват параметрической памяти. Однако этот же процесс параллельно повышает риск галлюцинаций, требуя фильтрации траекторий рассуждения без ложных выводов на этапе инференса.
Проблема управляемости логических цепочек
На новом бенчмарке CoT-Control выяснилось, что современные ризонинг-модели крайне плохо следуют прямым инструкциям по корректировке своего стиля размышлений. Степень упрямства зависит от размера сети, времени на обдумывание, метода обучения и наличия situational-awareness промптинга, что делает модели слабо предсказуемыми при попытке задать им конкретный алгоритм решения.
Мультимодальность и понимание видео
Механика рассуждений в видеомоделях
Ученые доказали, что логика диффузионных видеомоделей выстраивается не вдоль последовательности кадров, а вдоль шагов самого процесса зашумления (Chain-of-Steps). На ранних шагах модель исследует варианты решений, закладывает семантику сцены и способна к самоисправлению, а к поздним шагам сходится к итоговому ответу; при этом внутри каждого шага поздние слои трансформера консолидируют скрытые представления.

Претрейн на смеси текста, изображений и видео
Обучение единой MoE-модели с нуля на смеси разных данных показало, что совместное восприятие форматов формирует у модели более глубокое понимание физики мира. При этом выявилась асимметрия масштабирования: визуальным энкодерам требуется радикально больше данных, чем текстовым, хотя разреженность частично компенсирует этот дисбаланс.
Универсальная диффузия для любых модальностей
Авторы реализовали дискретную маскированную диффузию, которая одинаково хорошо понимает и генерирует текст, картинки и аудио в любом направлении. Использование прогрессивного обучения позволило обойти существующие авторегрессионные системы по качеству и скорости мультимодальной генерации.
Плотные признаки в видео через самообучение
Новая версия архитектуры JEPA применяет предиктивную функцию потерь ко всем токенам сразу в связке с глубоким иерархическим контролем. На выходе получаются высококачественные пространственно-временные представления, которые сильно улучшают сегментацию, оценку глубины кадра и планирование движений в робототехнике.
Внутренние рассуждения диффузионных моделей
Метод заставляет модель прокручивать итеративные цепочки рассуждений прямо в латентном пространстве во время генерации картинки. Это позволило диффузионным сетям успешно решать визуальные головоломки вроде лабиринтов, судоку и задачи коммивояжера, где требуется жесткая логическая последовательность действий.
Громадный бенчмарк логики в видео
Исследователи собрали более миллиона клипов, разбитых на 200 задач по пяти когнитивным направлениям, для проверки видеоризонинга. Первые тесты на новом датасете показали, что по мере роста данных и размера моделей их метрики улучшаются, но все еще очень далеки от уровня человеческого восприятия.
Заключение
Учитывая, с какой скоростью сейчас выходят новые фреймворки и модели, чувство, что мы ничего не успеваем, становится нашим постоянным спутником. Но иногда полезно просто закрыть IDE, отложить новости про очередные SOTA-бенчмарки и выйти на улицу — там, говорят, весна, тепло и графика отличная, пусть и без трассировки лучей.
На этом у нас все. Делитесь в комментариях, что из новинок уже успели потрогать руками, а что так и осталось лежать в закладках. Увидимся через месяц!
