Claude Opus 4.6 поставил рекорд времени автономной работы

Организация METR опубликовала результаты оценки Claude Opus 4.6 по бенчмарку Time Horizon 1.1, который измеряет сложность задач, доступных ИИ-агентам. Новая модель Anthropic показала 50%-й временной горизонт около 14,5 часов — это длительность задачи (в пересчете на время человека-эксперта), которую модель решает с вероятностью успеха 50%. Предыдущий рекорд принадлежал GPT-5.2 (high) с результатом 6 часов 34 минуты.

Но сами исследователи тут же оговорились: этой цифре нельзя доверять буквально. 95%-й доверительный интервал составил от 6 до 98 часов — причем верхняя граница длиннее любой задачи в наборе. Причина — набор тестов почти насыщен: новейшие модели решают большинство задач слишком легко, и экстраполяция на более сложные становится крайне неточной. По сути, бенчмарк перестал различать лидеров. На 80%-м горизонте, где требуется стабильная надежность, Opus 4.6 лидирует с более скромным отрывом — 1 час 3 минуты против 55 минут у GPT-5.2 (high).

В январе METR обновил набор задач до версии 1.1: добавил 34% новых тестов и вдвое увеличил число задач длиннее 8 часов. Это сузило доверительные интервалы, но не решило проблему: модели прогрессируют быстрее, чем исследователи успевают создавать новые испытания. Тренд с 2023 года показывает удвоение горизонта каждые ~4 месяца — быстрее первоначальной оценки в 7 месяцев.

Парадокс в том, что главный инструмент отслеживания прогресса ИИ-агентов перестал справляться именно тогда, когда прогресс ускорился. MIT Technology Review недавно назвал график METR "самым неправильно понимаемым графиком в ИИ" — 14,5 часов означают не "Opus работал почти день без перерыва", а "модель решает задачи, на которые у человека-эксперта ушло бы 14,5 часов". При этом задачи в наборе ограничены программированием, ML и кибербезопасностью — и они заметно чище реальной работы. Теперь к спорам о интерпретации бенчмарка добавился вопрос, можно ли вообще доверять свежим точкам на нем.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Claude Opus 4.6 поставил рекорд времени автономной работы — и сломал бенчмарк METR

Другие новости