Комментарии 12
Хм... Учитывая стоимость данной модели, мне интересно сколько стоили эти 14,5 часов.
На тарифе за 100$ 5-часовой лимит не успевает тратиться даже при непрерывном кодинге в одну сессию. Полагаю, на тарифе за 200$ можно запустить несколько (4-5) Клодов работать над разными задачами в разных папках.
по подписке гугла, плюс минус эта же подписка не больше (входит в подписку Ultra)
14,5 часов означают не "Opus работал почти день без перерыва", а "модель решает задачи, на которые у человека-эксперта ушло бы 14,5 часов".
В январе METR обновил набор задач до версии 1.1: добавил 34% новых тестов и вдвое увеличил число задач длиннее 8 часов.
Просто для справки: из 31 одной задачи длиннее 8 часов только 5 имеют оценки требуемого времени, основанные на результатах людей, (и то, там 5 задач из RE-Bench, который буквально лежит в открытом доступе) у остальных 26 задач временные затраты были измерены колдунствами от самих METR. От этого, как полагаю, и получаются такие результаты.
модели прогрессируют быстрее, чем исследователи успевают создавать новые испытания.
Забавно, что публично они жалуются на "мы не успеваем делать новые задачи", но при этом в версии 1.1 удалили почти 15 задач (v1 имела 170 задач, если что) без объяснения причин
В целом интересно, что Opus 4.6 на реальных задачах и в других бенчмарках в принципе не демонстрирует такого разгромного превосходства. Так что чувствую знатный буллщит
15 часов делать что?
В голову приходит только случай когда пытались написать компилятор си, а спецификаций не хватало и использовали оракул - GCC. Мы не знаем какой должен быть компилятор, но у нас есть GCC. Результат так себе
15 часов делать что?
Скорее всего, ничего особенного. METR же известны своими "особыми" отношениями как минимум с OpenAI, поощрением дезинформации, веселыми замерами и ИИ-бустеризмом. Крайне сомневаюсь, что основная цель этого графика - измерение каких-то способностей у моделей.
Написано же - это не нейросеть работала 15 часов, а количество времени, который бы потратил человек на этот объем работы.
Сейчас вайбкодеры, которые "работают в криптовалюте", придут и опять всех поувольняют.
По сути бенчмарк упёрся в потолок. Модели слишком часто проходят задачи, и дальше начинается экстраполяция на основе почти пустоты. Ну да, красиво растёт кривая. Но уверенность там плавает конечно
Поюзал я пару дней Claude Sonnet 4.6 - делает больше ошибок чем 4.5 в программировании. Ощущается разница даже просто в диалогах
Забавно смотреть, как рекорды для ИИ растут не потому что модель реально лучше, а потому что сами тесты уже не успевают за прогрессом - вроде бы цифра впечатляет, но в реальных задачах это может ничего не значить

Claude Opus 4.6 поставил рекорд времени автономной работы — и сломал бенчмарк METR