Обновить

Год назад Claude Code не умел составить план. Сейчас у него миллион токенов и 9 субагентов

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6K
Всего голосов 10: ↑5 и ↓50
Комментарии21

Комментарии 21

Браузером пользуются создатели (операторы промптов)? А почему?

Тесты и бенчмарки — метрика очень слабая, потому что не учитывает ни стек, ни окружение (с нуля магазин с картинками и продавщицами умели сделать генераторы рельсов/джанго 15 лет назад).

Вот бы кто-то независимый придумал бы настоящие метрики вместо пластиковых тестов в вакууме, но такого человека просто застрелят завтра же.

Про браузер от Cursor - они нигде не сказали что реально им пользуются, это был proof of concept. Суть эксперимента была не "сделать браузер" а "проверить, могут ли 1000 агентов координироваться на одной кодовой базе". Браузер просто как задача достаточно сложная чтобы это проверить.

Насчет бенчмарков - согласен, SWE-bench это фиксы из опенсорса, не реальная работа. Я в статье пишу про них потому что других количественных данных просто нет. METR хотя бы меряет время автономной работы, это чуть ближе к реальности. Но да, "80% SWE-bench" и "может поддерживать прод на 50 микросервисов" - это совсем разные вещи.

А независимые метрики... ну, CodeRabbit пытается (те данные про 1.7x багов), Redwood Research копает. Но ты прав что индустрии не выгодно честное измерение - все продают хайп.

Спасибо за статью.

Но сравнивать прогресс только по выходным токенам не совсем корректно, так как есть и выходные, которые, как правило, на порядок дороже.

В статье оба числа есть - 5/25 (вход/выход) год назад против 0.30/1.20 у MiniMax сейчас. Выходные упали даже сильнее: с $25 до $1.20, это больше чем в 20 раз. Так что если считать по выходным токенам, картина ещё драматичнее получается.

Но вообще да, реальная стоимость задачи зависит от соотношения вход/выход, а оно у всех моделей разное. В кодинге выхода обычно сильно больше чем входа, так что выходная цена важнее.

Насчёт прогресса для кодеров.

Работа с кодом это самое очевидное и самое непосредственное применение нейросетей. Загадал желание - получил код - получил зарплату:) Это, так сказать, низко висящий фрукт, и производители нейросетей даже как-то поздновато опомнились и добавили инструментов для своих кормильцев:)

А вы видите что-то подобное для других работ и специальностей? Я вот не наблюдаю, значит, кроме как писать код, области применения ИИ не настолько очевидны. А AGI, он как коммунизм, который сравнивали с линией горизонта.

Код - да, самый удобный домен для AI. Потому что есть автоматическая проверка: тесты, компиляция, линтеры. Модель написала - запустила - увидела что сломалось - починила.
Замкнутый цикл без человека.

В других областях этого цикла нет. Юрист не может "скомпилировать" договор и получить список ошибок. Дизайнер не может прогнать макет через тесты. Поэтому там AI остается на уровне "помощник который что-то предлагает, а ты проверяешь глазами". Это принципиально медленнее масштабируется.

Хотя для анализа данных уже неплохо работает - там тоже есть верификация (запустил запрос, посмотрел результат). Но до уровня кодинг-инструментов пока далеко, тут согласен.

Тысяча агентов написала браузер за неделю без людей. Я перечитал это три раза. Потом пошёл пить чай.

Правда этот браузер даже не компилируется, не говоря уже о том, чтобы работать... но кого это волнует в наше время? Главное генерить побольше длинных текстов об этом, уж с этим-то ИИ действительно справляется.

Ну я же в статье прямо написал - "сколько багов в этом браузере? Cursor деликатно не уточняет". И про 1.7x багов в AI-коде по данным CodeRabbit. Не пытался это подать как успех, скорее как proof of concept координации

Так вся статья рассыпается на ворох случайных фактов, почти никак не связанных между собой, кроме общей темы ИИ, а пробелы между ними заполнены внешне красивыми, но бессмысленными предожениями. Абсолютно бессвязный текст, в котором не просматривается никакой общей идеи и взаимосвязей между разными частями.

Если вычистить всю воду, то мог бы как максимум получиться некий дайджест новостей об ИИ, которые правда и так уже все видели, кто интересуется этой темой.

На миллионе токенов кстати точность нейронок резко падает с 90+% до 50% и ниже, реально они все так же примерно 200К контекст имеют, но даже об этом чуть менее общеизвестном факте в статье ни слова.

Cтатья связана одной линией - что изменилось за год в AI-кодинге, от инструментов до цен метрик. Каждый раздел привязан к этой линии. Если для тебя это "ворох случайных фактов" - ну ок, формат не зашел.

"Дайджест новостей которые все видели" - покажи мне где это собрано вместе с данными METR, CodeRabbit, Redwood Research и экспериментом Cursor в одном месте. Я не нашел когда писал, потому и написал.

Про "точность падает с 90 до 50, реально 200К" - это не так. Opus 4.6 на MRCR v2 (8-needle, 1M токенов) набирает 76%. Для сравнения, Sonnet 4.5 на том же тесте - 18.5%. GPT-5.4 и Gemini 3.1 Pro действительно проседают сильно после 256К, но Claude тут объективно лучше. "Lost in the middle" эффект есть, середина окна дает 76-82% вместо 85-95% по краям, но это далеко от твоих "50%". Anthropic как раз пишет что Opus 4.6 - качественный скачок в работе с длинным контекстом по сравнению с предыдущими моделями.

Это точно человек пишет? Стиль ответов и структура предложений, как у Грока.

Они умеют печатать со скоростью 10К знаков в минуту, вот только страшная ерунда получается…

Когда я вижу новости о прогрессе нейронок, то всегда вспоминаю мысль о том, что их текущие версии худшие, по сравнению с тем, что будет. Но я согласен с этим лишь частично, мне почему-то кажется, что когда тебя уже подсадили на платные тарифы, то можно тебя кормить беспонтовыми генерациями, что бы ты тратил как можно больше токенов, так что тут всё совсем не однозначно.

Про "подсадить и кормить беспонтовыми генерациями" - логика понятная, но тут конкуренция работает. Если Claude начнет лить воду чтобы сжигать токены, народ уйдет на Codex или Gemini за неделю. Пять CLI-агентов конкурируют прямо сейчас, переключиться - дело одного вечера.

Другое дело что verbose модель реально тратит больше. И тут есть нюанс - иногда модель генерит развернутый ответ не потому что хочет сжечь токены, а потому что не уверена в ответе и хеджирует. Короткий точный ответ требует больше "понимания" чем длинный расплывчатый. Так что по мере роста качества модели должны становиться лаконичнее, а не наоборот.

Софтина мощная, лучшая на рынке, почти все в интернете черз нее делаю. От скрапинга данных до анализа документов и поиска рисков для себя

а какую конкретно используешь? В статье штук пять разных, каждая под своё хороша

из названия - Claude Code

Ну Claude Code для кодинга понятно, но ты написал про скрапинг и анализ данных - для этого обычно другие тулы берут. Или тоже через Claude Code гоняешь?

буквально для всего

И что, как там с работой, удалось куда устроиться? :)

Не пробовал, смотрю тренды спроса на ai first разработку

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации