Обновить

Anthropic только что выпустила Claude Opus 4.8.

Три конкретных изменения по сравнению с 4.7: точнее судит о ситуации, честнее говорит о собственных ограничениях и дольше держит контекст при самостоятельной работе без подсказок.

По бенчмаркам: agentic coding (SWE-Bench Pro) 69.2% против 64.3% у 4.7 и 58.6% у GPT-5.5. Computer use (OSWorld) 83.4%. Knowledge work (GDPval-AA) 1890 против 1753 у предыдущей версии. В терминальном кодинге GPT-5.5 пока впереди с 78.2% против 74.6%, но разрыв небольшой.

Цена не изменилась.

В релизе упоминается апдейт про "более честную оценку собственного прогресса" — это прямо отвечает на одну из главных болей при работе с агентами: модель уверенно сообщает, что задача выполнена, хотя на самом деле застряла. Посмотрим, насколько это реально изменилось на практике.

claude.com/blog/introducing-dynamic-workflows-in-claude-code

Разбор релиза и источник тг : https://t.me/machinelearning_interview/2776

Теги:
+2
Комментарии1

Публикации