Cтатья связана одной линией - что изменилось за год в AI-кодинге, от инструментов до цен метрик. Каждый раздел привязан к этой линии. Если для тебя это "ворох случайных фактов" - ну ок, формат не зашел.
"Дайджест новостей которые все видели" - покажи мне где это собрано вместе с данными METR, CodeRabbit, Redwood Research и экспериментом Cursor в одном месте. Я не нашел когда писал, потому и написал.
Про "точность падает с 90 до 50, реально 200К" - это не так. Opus 4.6 на MRCR v2 (8-needle, 1M токенов) набирает 76%. Для сравнения, Sonnet 4.5 на том же тесте - 18.5%. GPT-5.4 и Gemini 3.1 Pro действительно проседают сильно после 256К, но Claude тут объективно лучше. "Lost in the middle" эффект есть, середина окна дает 76-82% вместо 85-95% по краям, но это далеко от твоих "50%". Anthropic как раз пишет что Opus 4.6 - качественный скачок в работе с длинным контекстом по сравнению с предыдущими моделями.
Про "подсадить и кормить беспонтовыми генерациями" - логика понятная, но тут конкуренция работает. Если Claude начнет лить воду чтобы сжигать токены, народ уйдет на Codex или Gemini за неделю. Пять CLI-агентов конкурируют прямо сейчас, переключиться - дело одного вечера.
Другое дело что verbose модель реально тратит больше. И тут есть нюанс - иногда модель генерит развернутый ответ не потому что хочет сжечь токены, а потому что не уверена в ответе и хеджирует. Короткий точный ответ требует больше "понимания" чем длинный расплывчатый. Так что по мере роста качества модели должны становиться лаконичнее, а не наоборот.
Ну я же в статье прямо написал - "сколько багов в этом браузере? Cursor деликатно не уточняет". И про 1.7x багов в AI-коде по данным CodeRabbit. Не пытался это подать как успех, скорее как proof of concept координации
Код - да, самый удобный домен для AI. Потому что есть автоматическая проверка: тесты, компиляция, линтеры. Модель написала - запустила - увидела что сломалось - починила. Замкнутый цикл без человека.
В других областях этого цикла нет. Юрист не может "скомпилировать" договор и получить список ошибок. Дизайнер не может прогнать макет через тесты. Поэтому там AI остается на уровне "помощник который что-то предлагает, а ты проверяешь глазами". Это принципиально медленнее масштабируется.
Хотя для анализа данных уже неплохо работает - там тоже есть верификация (запустил запрос, посмотрел результат). Но до уровня кодинг-инструментов пока далеко, тут согласен.
В статье оба числа есть - 25 (вход/выход) год назад против 1.20 у MiniMax сейчас. Выходные упали даже сильнее: с $25 до $1.20, это больше чем в 20 раз. Так что если считать по выходным токенам, картина ещё драматичнее получается.
Но вообще да, реальная стоимость задачи зависит от соотношения вход/выход, а оно у всех моделей разное. В кодинге выхода обычно сильно больше чем входа, так что выходная цена важнее.
Про браузер от Cursor - они нигде не сказали что реально им пользуются, это был proof of concept. Суть эксперимента была не "сделать браузер" а "проверить, могут ли 1000 агентов координироваться на одной кодовой базе". Браузер просто как задача достаточно сложная чтобы это проверить.
Насчет бенчмарков - согласен, SWE-bench это фиксы из опенсорса, не реальная работа. Я в статье пишу про них потому что других количественных данных просто нет. METR хотя бы меряет время автономной работы, это чуть ближе к реальности. Но да, "80% SWE-bench" и "может поддерживать прод на 50 микросервисов" - это совсем разные вещи.
А независимые метрики... ну, CodeRabbit пытается (те данные про 1.7x багов), Redwood Research копает. Но ты прав что индустрии не выгодно честное измерение - все продают хайп.
Собственно да, это и есть основной тезис статьи - через 3-5 лет миддлов не будет потому что их не вырастили из джунов. И тогда компании побегут нанимать, а на рынке пусто.
Дочке бы я не советовал паниковать. ПМИ дает хорошую математическую базу, а это как раз то что AI пока не заменяет. Плюс те кто входит в профессию сейчас, зная AI с первого дня - у них будет преимущество перед теми кто переучивается. Главное не останавливаться на "умею промптить" и копать глубже - алгоритмы, системный дизайн, понимание почему код работает а не только что он делает.
Может и AI, а может просто баг после очередного релиза) Но тенденция есть - компании спешат внедрить AI в продакшн быстрее чем успевают протестировать. И когда ломается - никто не знает почему, потому что поведение модели непредсказуемо. С обычным кодом хотя бы можно открыть логи и найти причину.
Рисовать руками - да, это было главное проклятие UML. Если AI сможет генерить и поддерживать диаграммы автоматически из кода - тогда UML получит второй шанс как язык описания, а не как инструмент рисования. Mermaid + AI уже сейчас неплохо работает для простых кейсов.
Вижу нейронку за километр) Но если серьезно - проблема этого списка в том что все эти роли (архитектор, системный аналитик) требуют 5-10 лет опыта в разработке. Нельзя стать архитектором не покодив руками. А если входа в профессию через кодинг больше нет - откуда эти люди возьмутся? Это ровно тот замкнутый круг про который статья.
Про краткосрочное мышление компаний - собственно это и есть talent doom cycle из статьи. Каждый оптимизирует на квартал, а потом все одновременно удивляются что людей нет.
UML как вход в профессию вместо кодинга - не уверен. UML пытались сделать основой разработки уже дважды (Rational Rose, потом MDA), оба раза не взлетело потому что диаграммы слишком абстрактны для реального кода. Но может с AI-агентами которые генерят код по диаграммам получится лучше чем раньше, тут спорить не буду.
Модели не устаревают целиком - базовые знания про алгоритмы, паттерны, SQL, HTTP никуда не деваются. Устаревает знание конкретных API и версий библиотек. И вот тут RAG с актуальными доками решает проблему без дообучения вообще. Claude уже сейчас может читать доки нового фреймворка прямо в контексте и писать под него код.
Что модели только перераспределяют - ну технически да, но экскаватор тоже только перераспределяет землю, а полезен)
Ну я и не обещал рай на земле) Написал статью, собрал данные, привлек внимание к проблеме. Это тоже действие. Не каждый должен идти строить баррикады чтобы иметь право высказаться.
В идеальном мире - да. На практике AI-код как раз генерит много ватдефаков которые выглядят нормально с первого взгляда. 100-200 строк в минуту по AI-коду это слишком быстро - пропустишь что-нибудь хитрое.
UML и CASE возвращаются каждые 10 лет в новой обертке, это да) Но кипиш не в самих инструментах, а в том что на этот раз компании реально перестали нанимать джунов. CASE в 90-х и MDA в нулевых такого эффекта на рынок труда не оказывали. Масштаб другой.
Canary deploys, feature flags, мониторинг метрик - всё правильно, и это работает независимо от того кто написал код. Тут не спорю. Я не предлагаю блокировать AI-коммиты, я использую AI каждый день. Просто говорю что при этом нельзя убирать людей из процесса. AI генерит, человек проверяет, инфраструктура страхует. Убери любое звено - получишь проблемы.
Про зарекаться - тоже верно, год назад я бы не поверил что агенты будут сами PR создавать. Может через год и ревью автоматизируют нормально. Но пока не автоматизировали.
Про скорость изменений - год назад Claude Code нормально не существовал, сейчас я им каждый день пользуюсь. Через год будет что-то что мы сейчас не можем представить. Готовиться к конкретному будущему бесполезно, но качать фундамент - понимание систем, умение дебажить, архитектурное мышление - это не устареет даже если инструменты поменяются полностью)
А, в смысле что модели обучены на текущих фреймворках и когда выйдет что-то принципиально новое - они будут бесполезны? Ну тут скорее вопрос скорости дообучения. Новый фреймворк попадает в training data через пару месяцев после релиза, а с RAG и доками - вообще сразу. React и Next.js модели уже неплохо знают, хотя те тоже обновляются постоянно.
а какую конкретно используешь? В статье штук пять разных, каждая под своё хороша
Cтатья связана одной линией - что изменилось за год в AI-кодинге, от инструментов до цен метрик. Каждый раздел привязан к этой линии. Если для тебя это "ворох случайных фактов" - ну ок, формат не зашел.
"Дайджест новостей которые все видели" - покажи мне где это собрано вместе с данными METR, CodeRabbit, Redwood Research и экспериментом Cursor в одном месте. Я не нашел когда писал, потому и написал.
Про "точность падает с 90 до 50, реально 200К" - это не так. Opus 4.6 на MRCR v2 (8-needle, 1M токенов) набирает 76%. Для сравнения, Sonnet 4.5 на том же тесте - 18.5%. GPT-5.4 и Gemini 3.1 Pro действительно проседают сильно после 256К, но Claude тут объективно лучше. "Lost in the middle" эффект есть, середина окна дает 76-82% вместо 85-95% по краям, но это далеко от твоих "50%". Anthropic как раз пишет что Opus 4.6 - качественный скачок в работе с длинным контекстом по сравнению с предыдущими моделями.
Про "подсадить и кормить беспонтовыми генерациями" - логика понятная, но тут конкуренция работает. Если Claude начнет лить воду чтобы сжигать токены, народ уйдет на Codex или Gemini за неделю. Пять CLI-агентов конкурируют прямо сейчас, переключиться - дело одного вечера.
Другое дело что verbose модель реально тратит больше. И тут есть нюанс - иногда модель генерит развернутый ответ не потому что хочет сжечь токены, а потому что не уверена в ответе и хеджирует. Короткий точный ответ требует больше "понимания" чем длинный расплывчатый. Так что по мере роста качества модели должны становиться лаконичнее, а не наоборот.
Ну я же в статье прямо написал - "сколько багов в этом браузере? Cursor деликатно не уточняет". И про 1.7x багов в AI-коде по данным CodeRabbit. Не пытался это подать как успех, скорее как proof of concept координации
Код - да, самый удобный домен для AI. Потому что есть автоматическая проверка: тесты, компиляция, линтеры. Модель написала - запустила - увидела что сломалось - починила.
Замкнутый цикл без человека.
В других областях этого цикла нет. Юрист не может "скомпилировать" договор и получить список ошибок. Дизайнер не может прогнать макет через тесты. Поэтому там AI остается на уровне "помощник который что-то предлагает, а ты проверяешь глазами". Это принципиально медленнее масштабируется.
Хотя для анализа данных уже неплохо работает - там тоже есть верификация (запустил запрос, посмотрел результат). Но до уровня кодинг-инструментов пока далеко, тут согласен.
В статье оба числа есть -
25 (вход/выход) год назад против
1.20 у MiniMax сейчас. Выходные упали даже сильнее: с $25 до $1.20, это больше чем в 20 раз. Так что если считать по выходным токенам, картина ещё драматичнее получается.
Но вообще да, реальная стоимость задачи зависит от соотношения вход/выход, а оно у всех моделей разное. В кодинге выхода обычно сильно больше чем входа, так что выходная цена важнее.
Про браузер от Cursor - они нигде не сказали что реально им пользуются, это был proof of concept. Суть эксперимента была не "сделать браузер" а "проверить, могут ли 1000 агентов координироваться на одной кодовой базе". Браузер просто как задача достаточно сложная чтобы это проверить.
Насчет бенчмарков - согласен, SWE-bench это фиксы из опенсорса, не реальная работа. Я в статье пишу про них потому что других количественных данных просто нет. METR хотя бы меряет время автономной работы, это чуть ближе к реальности. Но да, "80% SWE-bench" и "может поддерживать прод на 50 микросервисов" - это совсем разные вещи.
А независимые метрики... ну, CodeRabbit пытается (те данные про 1.7x багов), Redwood Research копает. Но ты прав что индустрии не выгодно честное измерение - все продают хайп.
Собственно да, это и есть основной тезис статьи - через 3-5 лет миддлов не будет потому что их не вырастили из джунов. И тогда компании побегут нанимать, а на рынке пусто.
Дочке бы я не советовал паниковать. ПМИ дает хорошую математическую базу, а это как раз то что AI пока не заменяет. Плюс те кто входит в профессию сейчас, зная AI с первого дня - у них будет преимущество перед теми кто переучивается. Главное не останавливаться на "умею промптить" и копать глубже - алгоритмы, системный дизайн, понимание почему код работает а не только что он делает.
Неделя это ещё рано для выводов, но 12 откликов и 2 собеса - конверсия 16%, это нормально. Главное чтобы собесы продолжались)
Может и AI, а может просто баг после очередного релиза) Но тенденция есть - компании спешат внедрить AI в продакшн быстрее чем успевают протестировать. И когда ломается - никто не знает почему, потому что поведение модели непредсказуемо. С обычным кодом хотя бы можно открыть логи и найти причину.
Рисовать руками - да, это было главное проклятие UML. Если AI сможет генерить и поддерживать диаграммы автоматически из кода - тогда UML получит второй шанс как язык описания, а не как инструмент рисования. Mermaid + AI уже сейчас неплохо работает для простых кейсов.
Вижу нейронку за километр) Но если серьезно - проблема этого списка в том что все эти роли (архитектор, системный аналитик) требуют 5-10 лет опыта в разработке. Нельзя стать архитектором не покодив руками. А если входа в профессию через кодинг больше нет - откуда эти люди возьмутся? Это ровно тот замкнутый круг про который статья.
Про краткосрочное мышление компаний - собственно это и есть talent doom cycle из статьи. Каждый оптимизирует на квартал, а потом все одновременно удивляются что людей нет.
UML как вход в профессию вместо кодинга - не уверен. UML пытались сделать основой разработки уже дважды (Rational Rose, потом MDA), оба раза не взлетело потому что диаграммы слишком абстрактны для реального кода. Но может с AI-агентами которые генерят код по диаграммам получится лучше чем раньше, тут спорить не буду.
Модели не устаревают целиком - базовые знания про алгоритмы, паттерны, SQL, HTTP никуда не деваются. Устаревает знание конкретных API и версий библиотек. И вот тут RAG с актуальными доками решает проблему без дообучения вообще. Claude уже сейчас может читать доки нового фреймворка прямо в контексте и писать под него код.
Что модели только перераспределяют - ну технически да, но экскаватор тоже только перераспределяет землю, а полезен)
Ну я и не обещал рай на земле) Написал статью, собрал данные, привлек внимание к проблеме. Это тоже действие. Не каждый должен идти строить баррикады чтобы иметь право высказаться.
В идеальном мире - да. На практике AI-код как раз генерит много ватдефаков которые выглядят нормально с первого взгляда. 100-200 строк в минуту по AI-коду это слишком быстро - пропустишь что-нибудь хитрое.
UML и CASE возвращаются каждые 10 лет в новой обертке, это да) Но кипиш не в самих инструментах, а в том что на этот раз компании реально перестали нанимать джунов. CASE в 90-х и MDA в нулевых такого эффекта на рынок труда не оказывали. Масштаб другой.
Canary deploys, feature flags, мониторинг метрик - всё правильно, и это работает независимо от того кто написал код. Тут не спорю. Я не предлагаю блокировать AI-коммиты, я использую AI каждый день. Просто говорю что при этом нельзя убирать людей из процесса. AI генерит, человек проверяет, инфраструктура страхует. Убери любое звено - получишь проблемы.
Про зарекаться - тоже верно, год назад я бы не поверил что агенты будут сами PR создавать. Может через год и ревью автоматизируют нормально. Но пока не автоматизировали.
Про скорость изменений - год назад Claude Code нормально не существовал, сейчас я им каждый день пользуюсь. Через год будет что-то что мы сейчас не можем представить. Готовиться к конкретному будущему бесполезно, но качать фундамент - понимание систем, умение дебажить, архитектурное мышление - это не устареет даже если инструменты поменяются полностью)
А, в смысле что модели обучены на текущих фреймворках и когда выйдет что-то принципиально новое - они будут бесполезны? Ну тут скорее вопрос скорости дообучения. Новый фреймворк попадает в training data через пару месяцев после релиза, а с RAG и доками - вообще сразу. React и Next.js модели уже неплохо знают, хотя те тоже обновляются постоянно.