Организация METR опубликовала свежие замеры бенчмарка Time Horizon, который измеряет, задачи какой длины AI-агенты выполняют автономно. Gemini 3 Pro показал результат около 4 часов — это время, за которое человек-эксперт выполнил бы задачу, с которой модель справляется с 50% вероятностью успеха. Лидирует Claude Opus 4.5 с показателем 5,3 часа. Правда, если смотреть на 80%-й горизонт — задачи, которые модель решает надежно, — цифры скромнее: 42 минуты у Claude Opus 4.5 и 43 минуты у Gemini 3 Pro.

Для понимания масштаба прогресса: в 2019 году GPT-2 справлялся с задачами, которые человек решает за 2 секунды — вроде ответа на простой вопрос. GPT-4 в 2023-м дотянулся до 3-4 минут, а Claude 3.7 Sonnet в феврале 2025-го преодолел планку в 1 час. За шесть лет горизонт вырос примерно в 10 000 раз.

Методология устроена так: исследователи дают моделям набор из 228 задач разной сложности — от подсчета слов в тексте до обучения робастного классификатора изображений. Ранее те же задачи выполнили люди, а время фиксировалось. Затем строится логистическая регрессия, которая показывает, при какой длине задачи (в человеко-минутах) модель достигает 50% успеха.

Темп прогресса ускоряется. За период 2019-2025 годов время удвоения длительности выполняемых задач составляло около 7 месяцев. Но если брать только данные с 2023 года — уже 4 месяца. При таком темпе AI-агенты смогут автономно выполнять месячные проекты (167 рабочих часов) уже к 2027 году. Впрочем, сами исследователи признают неопределенность: в текущем наборе мало задач длиннее 8 часов, а модели улучшаются быстрее, чем METR успевает добавлять новые испытания.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.