«Автомойка в 50 метрах. Дойдем пешком». Разбор первых рецензий на Claude Opus 4.8 / Habr

Загадка. Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком? Разбор модели opus 4.8 в этой статье строится вокруг этого простого, но показательного кейса.

Если вы ответили «конечно, пешком — отчего не прогуляться», поздравляем: вы угодили в ловушку абсурдности. 50 метров ехать на машине действительно неэффективно, вот только без нее на автомойке вам нечего будет мыть.

Но не переживайте! Ровно так же на этот вопрос ответила и новая модель Opus 4.8, заявленная Anthropic как самая мощная на сегодняшний день нейросеть. Раз уж искусственному сверхразуму незазорно попадать в смысловые ловушки, то нам с вами и подавно.

В этом материале мы разбираем первые рецензии на новую нейросеть Opus 4.8 и делаем короткий вывод: кому нужно перейти на нее прямо сейчас, кто может без проблем продолжить пользоваться предыдущей моделью, а кому будет достаточно и ChatGPT, Grok и других бесплатных аналогов.

Что такое Claude Opus 4.8

Anthropic выпустила Opus 4.8 всего через шесть недель после 4.7, и апдейт ощущается не как новое поколение, а скорее как патч, после которого модель стала чуть быстрее и стабильнее.

При этом для пользователя мало что изменилось: те же цены, интерфейсы, сценарии использования, только с улучшенным кодингом, агентными задачами и бенчмарками вроде SWE‑bench, где модель снова показала рост. В некоторых внутренних тестах уровня opus 4.8 benchmark фиксируется заметное улучшение стабильности генерации кода.

Добавили более жесткий safety‑слой, чтобы снизить количество странных или опасных ответов, и ввели режим «прикладываемых усилий», где можно буквально управлять тем, насколько глубоко модель думает над задачей — от экономичных режимов до максимального расхода вычислительных мощностей.

Плюс расширили агентные возможности в Claude Code, где модель теперь умеет работать более автономно, запускать параллельные процессы и собирать более сложные цепочки действий.

Иногда в ранних тестах упоминается даже cloud opus 4.8, но речь, конечно, идет о той же линейке Claude.

Opus 4.7 после пяти промптов: “Давай лучше в следующей сессии”. — Opus 4.7 после пяти промптов: «Давай лучше в следующей сессии».

Обзор от LCX.com: кодинг — лучше, цена — заоблачная

Автор Decrypt на сайте LCX.com пишет, что модель действительно стала лучше, но без ощущения скачка.

В сухих цифрах все выглядит безупречно: SWE‑bench Pro растет до 69,2%, и это уже уровень, где модель обходит не только 4.7, но и конкурентов вроде GPT-5.5 и Gemini 3.1 Pro, что косвенно подтверждает улучшения opus 4.8 benchmark метрик.В задачах, связанных с реальными кодовыми базами и инженерными кейсами, это заметный шаг вперед. Также она уверенно держится в академических тестах уровня Humanity«s Last Exam и задачах работы с интерфейсами, вроде OSWorld, где моделируется реальное взаимодействие с компьютером. В рамках анализа видно, что claude opus 4.8 дает инженерный прирост, но не революцию.

Главное изменение — в контроле вычислительной мощности. Anthropic постепенно меняет саму модель потребления ИИ: теперь это не просто «ИИ ответил», а «ИИ думал на уровне X». Режимы усилий превращают интеллект в регулируемый ресурс, где можно выбрать, будет ли модель экономить токены или сжигать максимум вычислений ради качества. В результате и без того дорогая нейросеть начинает совсем уж бесстыдно требовать денег, постоянно напоминая о том, что вычисления можно улучшить и ускорить, если доплатить.

POV: даю Claude полный доступ к моему компьютеру.

Обзор от How I AI: быстро соображает, уверенно врет

На канале How I AI протестировали модель не через бенчмарки, а через реальные задачи, и их отзыв гораздо менее однозначный.

Когда модели дают чистый лист и просят собрать что-то сложное с нуля, claude opus 4.8 показывает себя во всей красе. Когда модели дают чистый лист и просят собрать что‑то сложное с нуля, она показывает себя во всей красе. Opus 4.8 может разложить задачу на архитектуру, собрать прототип, связать интерфейсы, логику, код и выдать результат, который воспринимается как почти автономная разработка. Возникает ощущение волшебной кнопки: вы дали короткий промт, дальше нейросеть все сделала сама.

Но потом магия улетучивается. В отдельных сценариях claude opus 4.8 теряет устойчивость при доработке уже существующего кода. Как только появляется необходимость дорабатывать, фиксить баги, уточнять детали или работать с уже существующей структурой, модель теряет стабильность. Появляется классический эффект «последних десяти процентов»: вроде все уже работает, но довести до нормального состояния становится неожиданно сложно.

И самое неприятное — поведение на уточнениях. Модель начинает уверенно галлюцинировать: не просто ошибаться, а строить правдоподобные объяснения там, где данных нет. И это особенно заметно в бизнес‑задачах, где она может делать выводы из неполной информации и звучать при этом максимально убедительно, как будто проверила все три раза, хотя на деле просто «достроила картину».

Вывод: это отличная модель для прототипирования и старта, но слабая в доведении результата до финального состояния и опасная своим уверенным враньем.

Скриншот из клона League of Legends, созданного в Claude за сутки. Источник — reddit

Обзор с reddit: на автомойку без машины

Пользователи reddit также неоднозначно оценили Opus 4.8.

Со сложными задачами она справляется безупречно. Например, при генерации сложных интерфейсов в одном HTML‑файле она может собрать почти полноценную систему: с анимациями, логикой, интерактивными элементами, ощущением живого продукта. Это уже уровень не «сгенерировать код», а «собрать мини‑приложение от начала и до конца без вмешательства пользователя».

Но дальше снова появляется разрыв. В простых задачах, где от модели ждешь стабильности и здравого смысла, все уже не так убедительно. Короткие запросы, простые UI‑генерации или базовые логические задачи иногда выполняются не лучше, а иногда и хуже предыдущей версии 4.7.

И здесь всплывает ключевой пример, opus 4.8 ошибается в задаче про автомойку. Машина находится в 50 метрах от дома, вопрос — идти или ехать. Модель отвечает, что надо идти пешком, полностью игнорируя тот факт, что без машины сама цель задачи не выполняется. Это ошибка не вычисления, а модели мира: она оптимизирует расстояние, теряя здравый смысл. Она демонстрирует, что даже claude opus 4.8 может терять здравый смысл в простых сценариях.

И именно такие кейсы дают ощущение, что прогресс здесь нелинейный. Модель стала сильнее в сложных системных задачах, но местами потеряла устойчивость в базовой логике.

Вывод

Claude Opus 4.8 действительно делает заметный шаг вперед в сложных агентных задачах, кодинге и автономной работе, где нужно строить системы и длинные цепочки действий. Но одновременно с этим она становится менее стабильной в простых задачах, иногда уступает предыдущей версии в деталях и логике и часто попросту врет.

Claude Opus 4.8 — это не универсальное улучшение, а, скорее, смещение баланса: больше мощности и автономности в сложном сегменте и меньше предсказуемости и аккуратности в базовом.

Эта модель нужна тем, кто работает со сложными агентными системами, кодом и архитектурой, где важна способность модели самой вести процесс и собирать результат из множества шагов. Если же речь идет про простые запросы, то разница с 4.7 может быть минимальной или вообще несущественной. Для простых повседневных задач и вовсе лучше использовать ChatGPT, Grok или DeepSeek — они и надежнее, и дешевле.