Pull to refresh
15
diffnotes-tech@diffnotes-tech

User

5
Subscribers
Send message

Ну Claude Code для кодинга понятно, но ты написал про скрапинг и анализ данных - для этого обычно другие тулы берут. Или тоже через Claude Code гоняешь?

Да, 1488 человек для BCG - не огромная выборка. Я тоже обратил на это внимание, поэтому и полез в ActivTrak где 163 тысячи сотрудников и замеры а не самоотчет. Паттерн похожий, хотя конечно прямого сравнения этих двух исследований нет

Да, такие обёртки снижают порог входа. Вопрос в цене - обычно прокси-сервисы накидывают 30-50% сверху, и на активном использовании это ощутимо. Но для тех кому лень возиться с VPN и зарубежными картами - вполне рабочий вариант.

Фрактальные конструкты звучит как что-то из промпт-инжиниринга 2023 года когда все искали магические заклинания) сейчас модели достаточно умные чтобы просто сказать что тебе нужно.

Ага, UML как способ научить голову думать структурно - согласен. Даже если потом никогда не рисуешь диаграммы руками, само понимание что есть sequence, state machine, component diagram - помогает декомпозировать задачи. Собственно для джунов это и ценно.

а какую конкретно используешь? В статье штук пять разных, каждая под своё хороша

Cтатья связана одной линией - что изменилось за год в AI-кодинге, от инструментов до цен метрик. Каждый раздел привязан к этой линии. Если для тебя это "ворох случайных фактов" - ну ок, формат не зашел.

"Дайджест новостей которые все видели" - покажи мне где это собрано вместе с данными METR, CodeRabbit, Redwood Research и экспериментом Cursor в одном месте. Я не нашел когда писал, потому и написал.

Про "точность падает с 90 до 50, реально 200К" - это не так. Opus 4.6 на MRCR v2 (8-needle, 1M токенов) набирает 76%. Для сравнения, Sonnet 4.5 на том же тесте - 18.5%. GPT-5.4 и Gemini 3.1 Pro действительно проседают сильно после 256К, но Claude тут объективно лучше. "Lost in the middle" эффект есть, середина окна дает 76-82% вместо 85-95% по краям, но это далеко от твоих "50%". Anthropic как раз пишет что Opus 4.6 - качественный скачок в работе с длинным контекстом по сравнению с предыдущими моделями.

Про "подсадить и кормить беспонтовыми генерациями" - логика понятная, но тут конкуренция работает. Если Claude начнет лить воду чтобы сжигать токены, народ уйдет на Codex или Gemini за неделю. Пять CLI-агентов конкурируют прямо сейчас, переключиться - дело одного вечера.

Другое дело что verbose модель реально тратит больше. И тут есть нюанс - иногда модель генерит развернутый ответ не потому что хочет сжечь токены, а потому что не уверена в ответе и хеджирует. Короткий точный ответ требует больше "понимания" чем длинный расплывчатый. Так что по мере роста качества модели должны становиться лаконичнее, а не наоборот.

Ну я же в статье прямо написал - "сколько багов в этом браузере? Cursor деликатно не уточняет". И про 1.7x багов в AI-коде по данным CodeRabbit. Не пытался это подать как успех, скорее как proof of concept координации

Код - да, самый удобный домен для AI. Потому что есть автоматическая проверка: тесты, компиляция, линтеры. Модель написала - запустила - увидела что сломалось - починила.
Замкнутый цикл без человека.

В других областях этого цикла нет. Юрист не может "скомпилировать" договор и получить список ошибок. Дизайнер не может прогнать макет через тесты. Поэтому там AI остается на уровне "помощник который что-то предлагает, а ты проверяешь глазами". Это принципиально медленнее масштабируется.

Хотя для анализа данных уже неплохо работает - там тоже есть верификация (запустил запрос, посмотрел результат). Но до уровня кодинг-инструментов пока далеко, тут согласен.

В статье оба числа есть - 5/25 (вход/выход) год назад против 0.30/1.20 у MiniMax сейчас. Выходные упали даже сильнее: с $25 до $1.20, это больше чем в 20 раз. Так что если считать по выходным токенам, картина ещё драматичнее получается.

Но вообще да, реальная стоимость задачи зависит от соотношения вход/выход, а оно у всех моделей разное. В кодинге выхода обычно сильно больше чем входа, так что выходная цена важнее.

Про браузер от Cursor - они нигде не сказали что реально им пользуются, это был proof of concept. Суть эксперимента была не "сделать браузер" а "проверить, могут ли 1000 агентов координироваться на одной кодовой базе". Браузер просто как задача достаточно сложная чтобы это проверить.

Насчет бенчмарков - согласен, SWE-bench это фиксы из опенсорса, не реальная работа. Я в статье пишу про них потому что других количественных данных просто нет. METR хотя бы меряет время автономной работы, это чуть ближе к реальности. Но да, "80% SWE-bench" и "может поддерживать прод на 50 микросервисов" - это совсем разные вещи.

А независимые метрики... ну, CodeRabbit пытается (те данные про 1.7x багов), Redwood Research копает. Но ты прав что индустрии не выгодно честное измерение - все продают хайп.

Собственно да, это и есть основной тезис статьи - через 3-5 лет миддлов не будет потому что их не вырастили из джунов. И тогда компании побегут нанимать, а на рынке пусто.

Дочке бы я не советовал паниковать. ПМИ дает хорошую математическую базу, а это как раз то что AI пока не заменяет. Плюс те кто входит в профессию сейчас, зная AI с первого дня - у них будет преимущество перед теми кто переучивается. Главное не останавливаться на "умею промптить" и копать глубже - алгоритмы, системный дизайн, понимание почему код работает а не только что он делает.

Неделя это ещё рано для выводов, но 12 откликов и 2 собеса - конверсия 16%, это нормально. Главное чтобы собесы продолжались)

Может и AI, а может просто баг после очередного релиза) Но тенденция есть - компании спешат внедрить AI в продакшн быстрее чем успевают протестировать. И когда ломается - никто не знает почему, потому что поведение модели непредсказуемо. С обычным кодом хотя бы можно открыть логи и найти причину.

Рисовать руками - да, это было главное проклятие UML. Если AI сможет генерить и поддерживать диаграммы автоматически из кода - тогда UML получит второй шанс как язык описания, а не как инструмент рисования. Mermaid + AI уже сейчас неплохо работает для простых кейсов.

Вижу нейронку за километр) Но если серьезно - проблема этого списка в том что все эти роли (архитектор, системный аналитик) требуют 5-10 лет опыта в разработке. Нельзя стать архитектором не покодив руками. А если входа в профессию через кодинг больше нет - откуда эти люди возьмутся? Это ровно тот замкнутый круг про который статья.

Про краткосрочное мышление компаний - собственно это и есть talent doom cycle из статьи. Каждый оптимизирует на квартал, а потом все одновременно удивляются что людей нет.

UML как вход в профессию вместо кодинга - не уверен. UML пытались сделать основой разработки уже дважды (Rational Rose, потом MDA), оба раза не взлетело потому что диаграммы слишком абстрактны для реального кода. Но может с AI-агентами которые генерят код по диаграммам получится лучше чем раньше, тут спорить не буду.

Information

Rating
Does not participate
Registered
Activity

Specialization

Десктоп разработчик, Бэкенд разработчик
Ведущий
Python
Linux
Docker
REST
Базы данных
ООП
Java Spring Framework
Git
SQL
PHP