Обновить
32K+
12
diffnotes-tech@diffnotes-tech

Пользователь

85,4
Рейтинг
3
Подписчики
Отправить сообщение

а какую конкретно используешь? В статье штук пять разных, каждая под своё хороша

Cтатья связана одной линией - что изменилось за год в AI-кодинге, от инструментов до цен метрик. Каждый раздел привязан к этой линии. Если для тебя это "ворох случайных фактов" - ну ок, формат не зашел.

"Дайджест новостей которые все видели" - покажи мне где это собрано вместе с данными METR, CodeRabbit, Redwood Research и экспериментом Cursor в одном месте. Я не нашел когда писал, потому и написал.

Про "точность падает с 90 до 50, реально 200К" - это не так. Opus 4.6 на MRCR v2 (8-needle, 1M токенов) набирает 76%. Для сравнения, Sonnet 4.5 на том же тесте - 18.5%. GPT-5.4 и Gemini 3.1 Pro действительно проседают сильно после 256К, но Claude тут объективно лучше. "Lost in the middle" эффект есть, середина окна дает 76-82% вместо 85-95% по краям, но это далеко от твоих "50%". Anthropic как раз пишет что Opus 4.6 - качественный скачок в работе с длинным контекстом по сравнению с предыдущими моделями.

Про "подсадить и кормить беспонтовыми генерациями" - логика понятная, но тут конкуренция работает. Если Claude начнет лить воду чтобы сжигать токены, народ уйдет на Codex или Gemini за неделю. Пять CLI-агентов конкурируют прямо сейчас, переключиться - дело одного вечера.

Другое дело что verbose модель реально тратит больше. И тут есть нюанс - иногда модель генерит развернутый ответ не потому что хочет сжечь токены, а потому что не уверена в ответе и хеджирует. Короткий точный ответ требует больше "понимания" чем длинный расплывчатый. Так что по мере роста качества модели должны становиться лаконичнее, а не наоборот.

Ну я же в статье прямо написал - "сколько багов в этом браузере? Cursor деликатно не уточняет". И про 1.7x багов в AI-коде по данным CodeRabbit. Не пытался это подать как успех, скорее как proof of concept координации

Код - да, самый удобный домен для AI. Потому что есть автоматическая проверка: тесты, компиляция, линтеры. Модель написала - запустила - увидела что сломалось - починила.
Замкнутый цикл без человека.

В других областях этого цикла нет. Юрист не может "скомпилировать" договор и получить список ошибок. Дизайнер не может прогнать макет через тесты. Поэтому там AI остается на уровне "помощник который что-то предлагает, а ты проверяешь глазами". Это принципиально медленнее масштабируется.

Хотя для анализа данных уже неплохо работает - там тоже есть верификация (запустил запрос, посмотрел результат). Но до уровня кодинг-инструментов пока далеко, тут согласен.

В статье оба числа есть - 5/25 (вход/выход) год назад против 0.30/1.20 у MiniMax сейчас. Выходные упали даже сильнее: с $25 до $1.20, это больше чем в 20 раз. Так что если считать по выходным токенам, картина ещё драматичнее получается.

Но вообще да, реальная стоимость задачи зависит от соотношения вход/выход, а оно у всех моделей разное. В кодинге выхода обычно сильно больше чем входа, так что выходная цена важнее.

Про браузер от Cursor - они нигде не сказали что реально им пользуются, это был proof of concept. Суть эксперимента была не "сделать браузер" а "проверить, могут ли 1000 агентов координироваться на одной кодовой базе". Браузер просто как задача достаточно сложная чтобы это проверить.

Насчет бенчмарков - согласен, SWE-bench это фиксы из опенсорса, не реальная работа. Я в статье пишу про них потому что других количественных данных просто нет. METR хотя бы меряет время автономной работы, это чуть ближе к реальности. Но да, "80% SWE-bench" и "может поддерживать прод на 50 микросервисов" - это совсем разные вещи.

А независимые метрики... ну, CodeRabbit пытается (те данные про 1.7x багов), Redwood Research копает. Но ты прав что индустрии не выгодно честное измерение - все продают хайп.

Собственно да, это и есть основной тезис статьи - через 3-5 лет миддлов не будет потому что их не вырастили из джунов. И тогда компании побегут нанимать, а на рынке пусто.

Дочке бы я не советовал паниковать. ПМИ дает хорошую математическую базу, а это как раз то что AI пока не заменяет. Плюс те кто входит в профессию сейчас, зная AI с первого дня - у них будет преимущество перед теми кто переучивается. Главное не останавливаться на "умею промптить" и копать глубже - алгоритмы, системный дизайн, понимание почему код работает а не только что он делает.

Неделя это ещё рано для выводов, но 12 откликов и 2 собеса - конверсия 16%, это нормально. Главное чтобы собесы продолжались)

Может и AI, а может просто баг после очередного релиза) Но тенденция есть - компании спешат внедрить AI в продакшн быстрее чем успевают протестировать. И когда ломается - никто не знает почему, потому что поведение модели непредсказуемо. С обычным кодом хотя бы можно открыть логи и найти причину.

Рисовать руками - да, это было главное проклятие UML. Если AI сможет генерить и поддерживать диаграммы автоматически из кода - тогда UML получит второй шанс как язык описания, а не как инструмент рисования. Mermaid + AI уже сейчас неплохо работает для простых кейсов.

Вижу нейронку за километр) Но если серьезно - проблема этого списка в том что все эти роли (архитектор, системный аналитик) требуют 5-10 лет опыта в разработке. Нельзя стать архитектором не покодив руками. А если входа в профессию через кодинг больше нет - откуда эти люди возьмутся? Это ровно тот замкнутый круг про который статья.

Про краткосрочное мышление компаний - собственно это и есть talent doom cycle из статьи. Каждый оптимизирует на квартал, а потом все одновременно удивляются что людей нет.

UML как вход в профессию вместо кодинга - не уверен. UML пытались сделать основой разработки уже дважды (Rational Rose, потом MDA), оба раза не взлетело потому что диаграммы слишком абстрактны для реального кода. Но может с AI-агентами которые генерят код по диаграммам получится лучше чем раньше, тут спорить не буду.

Модели не устаревают целиком - базовые знания про алгоритмы, паттерны, SQL, HTTP никуда не деваются. Устаревает знание конкретных API и версий библиотек. И вот тут RAG с актуальными доками решает проблему без дообучения вообще. Claude уже сейчас может читать доки нового фреймворка прямо в контексте и писать под него код.

Что модели только перераспределяют - ну технически да, но экскаватор тоже только перераспределяет землю, а полезен)

Ну я и не обещал рай на земле) Написал статью, собрал данные, привлек внимание к проблеме. Это тоже действие. Не каждый должен идти строить баррикады чтобы иметь право высказаться.

В идеальном мире - да. На практике AI-код как раз генерит много ватдефаков которые выглядят нормально с первого взгляда. 100-200 строк в минуту по AI-коду это слишком быстро - пропустишь что-нибудь хитрое.

UML и CASE возвращаются каждые 10 лет в новой обертке, это да) Но кипиш не в самих инструментах, а в том что на этот раз компании реально перестали нанимать джунов. CASE в 90-х и MDA в нулевых такого эффекта на рынок труда не оказывали. Масштаб другой.

Canary deploys, feature flags, мониторинг метрик - всё правильно, и это работает независимо от того кто написал код. Тут не спорю. Я не предлагаю блокировать AI-коммиты, я использую AI каждый день. Просто говорю что при этом нельзя убирать людей из процесса. AI генерит, человек проверяет, инфраструктура страхует. Убери любое звено - получишь проблемы.

Про зарекаться - тоже верно, год назад я бы не поверил что агенты будут сами PR создавать. Может через год и ревью автоматизируют нормально. Но пока не автоматизировали.

Про скорость изменений - год назад Claude Code нормально не существовал, сейчас я им каждый день пользуюсь. Через год будет что-то что мы сейчас не можем представить. Готовиться к конкретному будущему бесполезно, но качать фундамент - понимание систем, умение дебажить, архитектурное мышление - это не устареет даже если инструменты поменяются полностью)

А, в смысле что модели обучены на текущих фреймворках и когда выйдет что-то принципиально новое - они будут бесполезны? Ну тут скорее вопрос скорости дообучения. Новый фреймворк попадает в training data через пару месяцев после релиза, а с RAG и доками - вообще сразу. React и Next.js модели уже неплохо знают, хотя те тоже обновляются постоянно.

Информация

В рейтинге
102-й
Зарегистрирован
Активность

Специализация

Десктоп разработчик, Бэкенд разработчик
Ведущий
Python
Linux
Docker
REST
Базы данных
ООП
Java Spring Framework
Git
SQL
PHP