runaway_llm20 фев в 20:06

Claude Opus 4.6 поставил рекорд времени автономной работы — и сломал бенчмарк METR

2 мин

Искусственный интеллектМашинное обучение *

Комментарии 12

Kasyan666 20 фев в 20:29

Хм... Учитывая стоимость данной модели, мне интересно сколько стоили эти 14,5 часов.

KivApple 20 фев в 22:28

На тарифе за 100$ 5-часовой лимит не успевает тратиться даже при непрерывном кодинге в одну сессию. Полагаю, на тарифе за 200$ можно запустить несколько (4-5) Клодов работать над разными задачами в разных папках.

Dmitriila 20 фев в 22:53

по подписке гугла, плюс минус эта же подписка не больше (входит в подписку Ultra)

kofeinus123 24 фев в 05:15

14,5 часов означают не "Opus работал почти день без перерыва", а "модель решает задачи, на которые у человека-эксперта ушло бы 14,5 часов".

ArZr 20 фев в 20:31

В январе METR обновил набор задач до версии 1.1: добавил 34% новых тестов и вдвое увеличил число задач длиннее 8 часов.

Просто для справки: из 31 одной задачи длиннее 8 часов только 5 имеют оценки требуемого времени, основанные на результатах людей, (и то, там 5 задач из RE-Bench, который буквально лежит в открытом доступе) у остальных 26 задач временные затраты были измерены колдунствами от самих METR. От этого, как полагаю, и получаются такие результаты.

модели прогрессируют быстрее, чем исследователи успевают создавать новые испытания.

Забавно, что публично они жалуются на "мы не успеваем делать новые задачи", но при этом в версии 1.1 удалили почти 15 задач (v1 имела 170 задач, если что) без объяснения причин

В целом интересно, что Opus 4.6 на реальных задачах и в других бенчмарках в принципе не демонстрирует такого разгромного превосходства. Так что чувствую знатный буллщит

Dhwtj 20 фев в 20:38

15 часов делать что?

В голову приходит только случай когда пытались написать компилятор си, а спецификаций не хватало и использовали оракул - GCC. Мы не знаем какой должен быть компилятор, но у нас есть GCC. Результат так себе

ArZr 20 фев в 21:22

15 часов делать что?

Скорее всего, ничего особенного. METR же известны своими "особыми" отношениями как минимум с OpenAI, поощрением дезинформации, веселыми замерами и ИИ-бустеризмом. Крайне сомневаюсь, что основная цель этого графика - измерение каких-то способностей у моделей.

max-daniels 21 фев в 01:09

Написано же - это не нейросеть работала 15 часов, а количество времени, который бы потратил человек на этот объем работы.

evomed 20 фев в 20:51

Сейчас вайбкодеры, которые "работают в криптовалюте", придут и опять всех поувольняют.

oookkdjjjdjdj 20 фев в 21:54

По сути бенчмарк упёрся в потолок. Модели слишком часто проходят задачи, и дальше начинается экстраполяция на основе почти пустоты. Ну да, красиво растёт кривая. Но уверенность там плавает конечно

Alexdrbnd 20 фев в 21:55

Поюзал я пару дней Claude Sonnet 4.6 - делает больше ошибок чем 4.5 в программировании. Ощущается разница даже просто в диалогах

Sisoev_Oleg66 24 фев в 05:15

Забавно смотреть, как рекорды для ИИ растут не потому что модель реально лучше, а потому что сами тесты уже не успевают за прогрессом - вроде бы цифра впечатляет, но в реальных задачах это может ничего не значить

Зарегистрируйтесь на Хабре, чтобы оставить комментарий