Организация METR, занимающаяся оценкой способностей ИИ-моделей, опубликовала результаты тестирования Claude Opus 4.5. Модель от Anthropic показала 50%-горизонт около 4 часов 49 минут — это рекорд среди всех протестированных систем. Показатель означает, что Opus 4.5 справляется с задачами такой длительности (измеренной в человеко-часах работы) с вероятностью 50%. Предыдущий лидер, GPT-5.1-Codex-Max от OpenAI, держался на отметке 2 часа 53 минуты.

METR измеряет не точность ответов на стандартных бенчмарках, а длину задач, которые ИИ способен выполнять автономно — без помощи человека. По данным организации, этот показатель удваивается примерно каждые 7 месяцев: от нескольких секунд у GPT-2 в 2019 году до почти пяти часов у Opus 4.5 сейчас. Задачи в тестовом наборе разнообразны — от поиска информации в интернете до обучения ML-моделей и решения задач по кибербезопасности.
Впрочем, сами исследователи призывают к осторожности в интерпретации. Доверительный интервал результата огромен: от 1 часа 49 минут до 20 часов 25 минут. METR признает, что в текущем тестовом наборе недостаточно длинных задач, чтобы точно оценить верхнюю границу способностей модели.
Есть и ещё один нюанс. При более строгом пороге — 80% успеха — горизонт Opus 4.5 падает до 27 минут. Это примерно столько же, сколько у GPT-5.1-Codex-Max и других недавних моделей. Рекордные 5 часов достигаются только при 50%-ной надежности: модель может вытянуть сложную задачу, а может и провалить. Opus 4.5 способен на прорывы, но стабильнее предшественников он не стал.
Если тренд удвоения сохранится, к концу десятилетия ИИ-агенты смогут автономно выполнять проекты длительностью в месяц. Впрочем, критики указывают на ограничения методологии METR: в релевантном диапазоне 1–4 часа всего 14 задач, а их тематика смещена в сторону кибербезопасности и ML-кода. Организация обещает обновить тестовый набор, чтобы точнее измерять прогресс в будущем.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
