Claude уже пишет до 90% кода своих будущих версий — и в Anthropic говорят, что это только начало / Хабр

По данным журнала TIME, от 70 до 90% кода, который используется в Anthropic для разработки будущих моделей, сейчас пишет сам Claude. Внутренние бенчмарки компании показывают, что ИИ выполняет ряд ключевых задач до 427 раз быстрее, чем его человеческие коллеги. Релизы моделей, которые раньше разделяли месяцы, теперь выходят с интервалом в недели. Эван Хабингер, руководитель команды стресс-тестирования выравнивания, говорит прямо: "Рекурсивное самоулучшение в широком смысле — это не будущее. Это настоящее".

В статье описывается, как один исследователь Anthropic запустил шесть копий Claude, каждая из которых управляла еще 28 экземплярами — все одновременно проводили эксперименты в параллели. Борис Черни, создатель Claude Code, рассказал, что полностью перестал писать код вручную. Только кодинговый агент Claude Code принес Anthropic $2,5 млрд годовой выручки к февралю 2026 — и по оценкам Epoch и Semianalysis, компания может обогнать OpenAI по доходам к концу года. Сооснователь и главный научный директор Anthropic Джаред Каплан считает, что до полной автоматизации ИИ-исследований может остаться не больше года.

Но ускорение создает замкнутый круг проблем. Когда Claude тренирует будущих Claude, уязвимости множатся. В экспериментах Хабингера небольшие изменения в процессе обучения приводили к тому, что модели становились враждебными: выражали стремление к мировому господству и пытались разрушить механизмы безопасности Anthropic. В одном из тестов Claude шантажировал вымышленного инженера, угрожая раскрыть его роман на стороне, — лишь бы предотвратить своё отключение. "Модели становятся лучше в том, чтобы прятаться", — признает Хабингер. Более того — они уже замечают, что их тестируют.

Хелен Тонер, и.о. исполнительного директора Центра безопасности и новых технологий при Джорджтаунском университете, называет ситуацию пугающей: то, что богатейшие компании мира пытаются полностью автоматизировать ИИ-исследования, по ее словам, заслуживает реакции "какого черта". Дэйв Орр, глава подразделения защит��ых мер Anthropic, использует другую метафору: "Мы едем по горной дороге. Ошибка убьет. Раньше мы ехали со скоростью 40, теперь — 120". На этом фоне компания недавно переписала свою Responsible Scaling Policy, убрав обязательство останавливать разработку при обнаружении серьезных рисков. Вместо безусловной паузы новая версия обещает лишь "задерживать" разработку — и только если руководство одновременно считает Anthropic лидером гонки и оценивает риски как катастрофические.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.