diffnotes-tech19 мар в 09:30

Год назад Claude Code не умел составить план. Сейчас у него миллион токенов и 9 субагентов

Средний

10 мин

6.4K

Исследования и прогнозы в IT * Искусственный интеллектПрограммирование *

Аналитика

Комментарии 23

amcured 19 мар в 09:53

Браузером пользуются создатели (операторы промптов)? А почему?

Тесты и бенчмарки — метрика очень слабая, потому что не учитывает ни стек, ни окружение (с нуля магазин с картинками и продавщицами умели сделать генераторы рельсов/джанго 15 лет назад).

Вот бы кто-то независимый придумал бы настоящие метрики вместо пластиковых тестов в вакууме, но такого человека просто застрелят завтра же.

diffnotes-tech 19 мар в 10:24

Про браузер от Cursor - они нигде не сказали что реально им пользуются, это был proof of concept. Суть эксперимента была не "сделать браузер" а "проверить, могут ли 1000 агентов координироваться на одной кодовой базе". Браузер просто как задача достаточно сложная чтобы это проверить.

Насчет бенчмарков - согласен, SWE-bench это фиксы из опенсорса, не реальная работа. Я в статье пишу про них потому что других количественных данных просто нет. METR хотя бы меряет время автономной работы, это чуть ближе к реальности. Но да, "80% SWE-bench" и "может поддерживать прод на 50 микросервисов" - это совсем разные вещи.

А независимые метрики... ну, CodeRabbit пытается (те данные про 1.7x багов), Redwood Research копает. Но ты прав что индустрии не выгодно честное измерение - все продают хайп.

Triton5 19 мар в 10:33

Спасибо за статью.

Но сравнивать прогресс только по выходным токенам не совсем корректно, так как есть и выходные, которые, как правило, на порядок дороже.

diffnotes-tech 19 мар в 11:34

В статье оба числа есть - 25 (вход/выход) год назад против 1.20 у MiniMax сейчас. Выходные упали даже сильнее: с $25 до $1.20, это больше чем в 20 раз. Так что если считать по выходным токенам, картина ещё драматичнее получается.

Но вообще да, реальная стоимость задачи зависит от соотношения вход/выход, а оно у всех моделей разное. В кодинге выхода обычно сильно больше чем входа, так что выходная цена важнее.

Triton5 19 мар в 10:43

Насчёт прогресса для кодеров.

Работа с кодом это самое очевидное и самое непосредственное применение нейросетей. Загадал желание - получил код - получил зарплату:) Это, так сказать, низко висящий фрукт, и производители нейросетей даже как-то поздновато опомнились и добавили инструментов для своих кормильцев:)

А вы видите что-то подобное для других работ и специальностей? Я вот не наблюдаю, значит, кроме как писать код, области применения ИИ не настолько очевидны. А AGI, он как коммунизм, который сравнивали с линией горизонта.

diffnotes-tech 19 мар в 11:35

Код - да, самый удобный домен для AI. Потому что есть автоматическая проверка: тесты, компиляция, линтеры. Модель написала - запустила - увидела что сломалось - починила.
Замкнутый цикл без человека.

В других областях этого цикла нет. Юрист не может "скомпилировать" договор и получить список ошибок. Дизайнер не может прогнать макет через тесты. Поэтому там AI остается на уровне "помощник который что-то предлагает, а ты проверяешь глазами". Это принципиально медленнее масштабируется.

Хотя для анализа данных уже неплохо работает - там тоже есть верификация (запустил запрос, посмотрел результат). Но до уровня кодинг-инструментов пока далеко, тут согласен.

Vedomir 19 мар в 11:13

Тысяча агентов написала браузер за неделю без людей. Я перечитал это три раза. Потом пошёл пить чай.

Правда этот браузер даже не компилируется, не говоря уже о том, чтобы работать... но кого это волнует в наше время? Главное генерить побольше длинных текстов об этом, уж с этим-то ИИ действительно справляется.

diffnotes-tech 19 мар в 11:36

Ну я же в статье прямо написал - "сколько багов в этом браузере? Cursor деликатно не уточняет". И про 1.7x багов в AI-коде по данным CodeRabbit. Не пытался это подать как успех, скорее как proof of concept координации

Vedomir 19 мар в 15:02

Так вся статья рассыпается на ворох случайных фактов, почти никак не связанных между собой, кроме общей темы ИИ, а пробелы между ними заполнены внешне красивыми, но бессмысленными предожениями. Абсолютно бессвязный текст, в котором не просматривается никакой общей идеи и взаимосвязей между разными частями.

Если вычистить всю воду, то мог бы как максимум получиться некий дайджест новостей об ИИ, которые правда и так уже все видели, кто интересуется этой темой.

На миллионе токенов кстати точность нейронок резко падает с 90+% до 50% и ниже, реально они все так же примерно 200К контекст имеют, но даже об этом чуть менее общеизвестном факте в статье ни слова.

diffnotes-tech 19 мар в 15:10

Cтатья связана одной линией - что изменилось за год в AI-кодинге, от инструментов до цен метрик. Каждый раздел привязан к этой линии. Если для тебя это "ворох случайных фактов" - ну ок, формат не зашел.

"Дайджест новостей которые все видели" - покажи мне где это собрано вместе с данными METR, CodeRabbit, Redwood Research и экспериментом Cursor в одном месте. Я не нашел когда писал, потому и написал.

Про "точность падает с 90 до 50, реально 200К" - это не так. Opus 4.6 на MRCR v2 (8-needle, 1M токенов) набирает 76%. Для сравнения, Sonnet 4.5 на том же тесте - 18.5%. GPT-5.4 и Gemini 3.1 Pro действительно проседают сильно после 256К, но Claude тут объективно лучше. "Lost in the middle" эффект есть, середина окна дает 76-82% вместо 85-95% по краям, но это далеко от твоих "50%". Anthropic как раз пишет что Opus 4.6 - качественный скачок в работе с длинным контекстом по сравнению с предыдущими моделями.

xsepsisx 22 мар в 09:41

Это точно человек пишет? Стиль ответов и структура предложений, как у Грока.

diffnotes-tech 23 мар в 08:39

))) у меня нет подписки на грок и в целом считаю неудачной моделью его
и ваще за грока обидно, он вежливее меня) а вообще наверное профдеформация - когда каждый день пишешь про AI и с AI, начинаешь и сам так формулировать. Скоро начну галлюцинировать ссылки на несуществующие исследования

amcured 19 мар в 11:55

Они умеют печатать со скоростью 10К знаков в минуту, вот только страшная ерунда получается…

nazarovigor 19 мар в 13:21

Когда я вижу новости о прогрессе нейронок, то всегда вспоминаю мысль о том, что их текущие версии худшие, по сравнению с тем, что будет. Но я согласен с этим лишь частично, мне почему-то кажется, что когда тебя уже подсадили на платные тарифы, то можно тебя кормить беспонтовыми генерациями, что бы ты тратил как можно больше токенов, так что тут всё совсем не однозначно.

diffnotes-tech 19 мар в 13:37

Про "подсадить и кормить беспонтовыми генерациями" - логика понятная, но тут конкуренция работает. Если Claude начнет лить воду чтобы сжигать токены, народ уйдет на Codex или Gemini за неделю. Пять CLI-агентов конкурируют прямо сейчас, переключиться - дело одного вечера.

Другое дело что verbose модель реально тратит больше. И тут есть нюанс - иногда модель генерит развернутый ответ не потому что хочет сжечь токены, а потому что не уверена в ответе и хеджирует. Короткий точный ответ требует больше "понимания" чем длинный расплывчатый. Так что по мере роста качества модели должны становиться лаконичнее, а не наоборот.

geoscout 20 мар в 06:04

Софтина мощная, лучшая на рынке, почти все в интернете черз нее делаю. От скрапинга данных до анализа документов и поиска рисков для себя

diffnotes-tech 20 мар в 06:46

а какую конкретно используешь? В статье штук пять разных, каждая под своё хороша

geoscout 20 мар в 15:18

из названия - Claude Code

diffnotes-tech 20 мар в 16:08

Ну Claude Code для кодинга понятно, но ты написал про скрапинг и анализ данных - для этого обычно другие тулы берут. Или тоже через Claude Code гоняешь?

geoscout 20 мар в 16:49

буквально для всего

Ryav 21 мар в 14:00

И что, как там с работой, удалось куда устроиться? :)

geoscout 21 мар в 14:56

Не пробовал, смотрю тренды спроса на ai first разработку

diffnotes-tech 23 мар в 08:41

Ну в этом есть логика - он же сам пишет скрипт и сам его запускает, не надо между окнами прыгать. Я для скрапинга пока отдельно делаю, но может зря усложняю

Зарегистрируйтесь на Хабре, чтобы оставить комментарий