С легаси работает, потому что ты чужой код кидаешь без эмоциональной привязки. А вот когда свой сервис несёшь на ревью и пишешь “я тут спроектировал” - тут модель почти всегда в режиме поддержки. Попробуй тот же код кинуть без контекста авторства, просто “оцени архитектуру” - разница в ответах бывает прям заметная
Проблема с извлечением цифры решается проще - Ollama поддерживает параметр format в запросе. Если передать JSON-схему типа {“choice”: int}, модель вернёт структурированный ответ без второго вызова. Два запроса вместо одного на каждый выбор - двойной расход токенов на весь прогон
15 секунд на git clone - это не модель думает, это overhead промпта, API, отрисовки, апрува. На одиночных командах агент всегда медленнее. Ценность на многошаговых - пайплайн, настройка сервера, ansible роли. Автор и сам это показал: на clone раздражает, на Flask+Docker+pipeline впечатляет
Статья доказывает что SPEC.md Symphony ≈ код. Ну да, там схемы БД, формулы ретраев, псевдокод - оно и есть код в markdown. Но реальный паттерн другой. CLAUDE.md, .cursorrules описывают не реализацию а ограничения - “используй repository pattern”, “не лезь в БД из вьюх”, “тесты кладём в tests”. Модель заполняет детали сама. Дейкстра про узкие интерфейсы прав, но ограничения и так узкие
Ну смотри, дефицит 1.5 млн это прогноз red_mad_robot/Сбера, не мой. Я сам в статье написал что Сбер одновременно сокращает 13.5 тысяч и жалуется на нехватку кадров, и что это плохо стыкуется. Про промпт инжиниринг согласен, но тут скорее не “профессия исчезла” а её неправильно назвали - люди которые это делали просто стали обычными пользователями LLM
Про агентов на одноплатниках я в статье сам оговорился что для edge это норм, ирония была в контрасте со словами «третий полюс», не в самой технологии. Про GigaChat = дотренированная открытая модель - Сбер прямо утверждает что обучают с нуля без открытых архитектур, я на CNews сослался где Фролов это объясняет. Можно не верить конечно. А сценарий с батником и пропагандой реально смешной, жаль что не выглядит нереалистичным
Про агентов на одноплатниках я в статье сам оговорился что для edge это норм, ирония была в контрасте со словами «третий полюс», не в самой технологии. Про GigaChat = дотренированная открытая модель - Сбер прямо утверждает что обучают с нуля без открытых архитектур, я на CNews сослался где Фролов это объясняет. Можно не верить конечно. А сценарий с батником и пропагандой реально смешной, жаль что не выглядит нереалистичным
Ага, я к тому же выводу прихожу в статье - обе версии не взаимоисключающие. Просто Amazon пытается свести к “user access control issue” и снять вопрос, а FT акцентирует автономность агента. На практике это два слоя одной проблемы - и оба надо фиксить. Права ограничить И checkpoint перед деструктивными действиями добавить
Ну да, классика NIH синдрома. Только тут масштаб другой - обычно NIH это когда переписывают библиотеку потому что “мы знаем лучше”, а Amazon заставил 80% инженеров использовать свой инструмент вместо того который те сами выбрали. И потом удивились что что-то пошло не так
Ну да, если инструмент реально хороший - люди сами подтянутся. Когда Claude Code появился, никто не заставлял его использовать, просто кто-то попробовал и рассказал коллегам. А тут 1500 человек прямо говорят “мы уже нашли что работает лучше” и им в ответ KPI. Это даже не ленивый менеджмент, это менеджмент который активно игнорирует фидбек от собственных инженеров. Ну и результат соответствующий
Двухуровневая система - да, примерно так Claude Code и работает. Есть глобальные permissions в settings.json от команды/компании, а есть CLAUDE.md в проекте где разработчик описывает что можно а что нельзя. У Kiro видимо ничего такого не было, просто operator-level доступ на весь scope. Про бесполезные KPI - ну 80% weekly usage как OKR для менеджеров это прям учебник по Goodhart’s Law, когда метрика становится целью она перестаёт быть метрикой
Про тросик в положении “полный газ” - ладно, тут ты меня поймал, плохой пример был) Про ответственность на создателя - а ведь так и будет скорее всего. EU AI Act уже классифицирует AI-системы по уровню риска, и для high-risk обязывает делать human oversight. Цена вырастет, но не факт что критично - тот же mandatory peer review для AI-изменений у Amazon это по сути бесплатный guardrail, просто раньше не додумались включить.
Допилят конечно, вопрос когда. Claude Code уже сейчас умеет спрашивать перед опасными командами, у него есть permissions в settings.json. А Kiro почему-то запустили без этого. Ну то есть технология для guardrails существует, просто Amazon решил что 80% adoption rate важнее чем “давайте сначала допилим safety”. Классика - сначала деплой, потом postmortem, потом guardrails. А KPI на использование инструмента без KPI на quality of that usage это вообще отдельный жанр менеджмента)
Ну вот смотри, с тросиком понятно - он рвётся, машина не едет. Детерминированная система. А агент может на один и тот же баг предложить патч, а может решить пересоздать окружение. Ты не знаешь заранее что он выберет, в отличие от педали. Поэтому мне кажется тут ответственность не только на “водителе” а ещё и на том кто дал агенту возможность делать необратимые вещи без подтверждения. Ну то есть если бы Kiro перед delete спросил “точно удалить?” - инцидента бы не было. Это не вопрос квалификации инженера, это вопрос отсутствия guardrail в самом инструменте.
Аналогия рабочая, но с одним отличием - у водителя отзывают права за конкретные нарушения, а тут пока непонятно кто вообще “за рулём”. Amazon говорит что виноват инженер который выдал права, FT говорит что агент сам выбрал деструктивное решение. Если переводить на автомобили - это как если бы автопилот снёс забор, а производитель сказал “водитель не должен был включать автопилот на этой дороге”. Вроде и правда, но проблема-то в том что автопилот вообще позволяет себе ехать в забор без торможения.
Ну в этом есть логика - он же сам пишет скрипт и сам его запускает, не надо между окнами прыгать. Я для скрапинга пока отдельно делаю, но может зря усложняю
))) у меня нет подписки на грок и в целом считаю неудачной моделью его и ваще за грока обидно, он вежливее меня) а вообще наверное профдеформация - когда каждый день пишешь про AI и с AI, начинаешь и сам так формулировать. Скоро начну галлюцинировать ссылки на несуществующие исследования
Справедливый вопрос, граница размытая. Я для себя считаю "тулом" отдельный интерфейс куда ты переключаешься - другое окно, другой контекст, другой флоу. MCP внутри Claude Code это расширение того же инструмента, ты не переключаешь голову. А вот если ты открываешь Cursor в одном окне и ChatGPT в другом и прыгаешь между ними - это два тула, потому что каждый переход стоит когнитивных ресурсов.
По этой логике Cursor с двумя моделями внутри - один тул. Ты работаешь в одном интерфейсе и модель переключается под капотом. Но если ты параллельно ещё открываешь ChatGPT чтобы "перепроверить" - уже два.
Да, там разброс небольшой. Я эту цифру привел скорее как любопытный факт чем как доказательство - в самой статье написал "корреляция, не рецепт". Мне больше зацепило что таких людей всего 3%, то есть почти никто не попадает в этот диапазон. Все либо используют меньше, либо сильно больше.
С легаси работает, потому что ты чужой код кидаешь без эмоциональной привязки. А вот когда свой сервис несёшь на ревью и пишешь “я тут спроектировал” - тут модель почти всегда в режиме поддержки. Попробуй тот же код кинуть без контекста авторства, просто “оцени архитектуру” - разница в ответах бывает прям заметная
Проблема с извлечением цифры решается проще - Ollama поддерживает параметр format в запросе. Если передать JSON-схему типа {“choice”: int}, модель вернёт структурированный ответ без второго вызова. Два запроса вместо одного на каждый выбор - двойной расход токенов на весь прогон
15 секунд на git clone - это не модель думает, это overhead промпта, API, отрисовки, апрува. На одиночных командах агент всегда медленнее. Ценность на многошаговых - пайплайн, настройка сервера, ansible роли. Автор и сам это показал: на clone раздражает, на Flask+Docker+pipeline впечатляет
Статья доказывает что SPEC.md Symphony ≈ код. Ну да, там схемы БД, формулы ретраев, псевдокод - оно и есть код в markdown. Но реальный паттерн другой. CLAUDE.md, .cursorrules описывают не реализацию а ограничения - “используй repository pattern”, “не лезь в БД из вьюх”, “тесты кладём в tests”. Модель заполняет детали сама. Дейкстра про узкие интерфейсы прав, но ограничения и так узкие
Ну смотри, дефицит 1.5 млн это прогноз red_mad_robot/Сбера, не мой. Я сам в статье написал что Сбер одновременно сокращает 13.5 тысяч и жалуется на нехватку кадров, и что это плохо стыкуется. Про промпт инжиниринг согласен, но тут скорее не “профессия исчезла” а её неправильно назвали - люди которые это делали просто стали обычными пользователями LLM
Про агентов на одноплатниках я в статье сам оговорился что для edge это норм, ирония была в контрасте со словами «третий полюс», не в самой технологии. Про GigaChat = дотренированная открытая модель - Сбер прямо утверждает что обучают с нуля без открытых архитектур, я на CNews сослался где Фролов это объясняет. Можно не верить конечно. А сценарий с батником и пропагандой реально смешной, жаль что не выглядит нереалистичным
Про агентов на одноплатниках я в статье сам оговорился что для edge это норм, ирония была в контрасте со словами «третий полюс», не в самой технологии. Про GigaChat = дотренированная открытая модель - Сбер прямо утверждает что обучают с нуля без открытых архитектур, я на CNews сослался где Фролов это объясняет. Можно не верить конечно. А сценарий с батником и пропагандой реально смешной, жаль что не выглядит нереалистичным
Да, спасибо за ссылку. Я в статье сослался на foundevo который этот отчет разбирает, но прямая ссылка на a16z конечно полезнее
Ага, я к тому же выводу прихожу в статье - обе версии не взаимоисключающие. Просто Amazon пытается свести к “user access control issue” и снять вопрос, а FT акцентирует автономность агента. На практике это два слоя одной проблемы - и оба надо фиксить. Права ограничить И checkpoint перед деструктивными действиями добавить
Ну да, классика NIH синдрома. Только тут масштаб другой - обычно NIH это когда переписывают библиотеку потому что “мы знаем лучше”, а Amazon заставил 80% инженеров использовать свой инструмент вместо того который те сами выбрали. И потом удивились что что-то пошло не так
Ну да, если инструмент реально хороший - люди сами подтянутся. Когда Claude Code появился, никто не заставлял его использовать, просто кто-то попробовал и рассказал коллегам. А тут 1500 человек прямо говорят “мы уже нашли что работает лучше” и им в ответ KPI. Это даже не ленивый менеджмент, это менеджмент который активно игнорирует фидбек от собственных инженеров. Ну и результат соответствующий
Двухуровневая система - да, примерно так Claude Code и работает. Есть глобальные permissions в settings.json от команды/компании, а есть CLAUDE.md в проекте где разработчик описывает что можно а что нельзя. У Kiro видимо ничего такого не было, просто operator-level доступ на весь scope. Про бесполезные KPI - ну 80% weekly usage как OKR для менеджеров это прям учебник по Goodhart’s Law, когда метрика становится целью она перестаёт быть метрикой
Про тросик в положении “полный газ” - ладно, тут ты меня поймал, плохой пример был) Про ответственность на создателя - а ведь так и будет скорее всего. EU AI Act уже классифицирует AI-системы по уровню риска, и для high-risk обязывает делать human oversight. Цена вырастет, но не факт что критично - тот же mandatory peer review для AI-изменений у Amazon это по сути бесплатный guardrail, просто раньше не додумались включить.
Допилят конечно, вопрос когда. Claude Code уже сейчас умеет спрашивать перед опасными командами, у него есть permissions в settings.json. А Kiro почему-то запустили без этого. Ну то есть технология для guardrails существует, просто Amazon решил что 80% adoption rate важнее чем “давайте сначала допилим safety”. Классика - сначала деплой, потом postmortem, потом guardrails. А KPI на использование инструмента без KPI на quality of that usage это вообще отдельный жанр менеджмента)
Ну вот смотри, с тросиком понятно - он рвётся, машина не едет. Детерминированная система. А агент может на один и тот же баг предложить патч, а может решить пересоздать окружение. Ты не знаешь заранее что он выберет, в отличие от педали. Поэтому мне кажется тут ответственность не только на “водителе” а ещё и на том кто дал агенту возможность делать необратимые вещи без подтверждения. Ну то есть если бы Kiro перед delete спросил “точно удалить?” - инцидента бы не было. Это не вопрос квалификации инженера, это вопрос отсутствия guardrail в самом инструменте.
Аналогия рабочая, но с одним отличием - у водителя отзывают права за конкретные нарушения, а тут пока непонятно кто вообще “за рулём”. Amazon говорит что виноват инженер который выдал права, FT говорит что агент сам выбрал деструктивное решение. Если переводить на автомобили - это как если бы автопилот снёс забор, а производитель сказал “водитель не должен был включать автопилот на этой дороге”. Вроде и правда, но проблема-то в том что автопилот вообще позволяет себе ехать в забор без торможения.
Ну в этом есть логика - он же сам пишет скрипт и сам его запускает, не надо между окнами прыгать. Я для скрапинга пока отдельно делаю, но может зря усложняю
))) у меня нет подписки на грок и в целом считаю неудачной моделью его
и ваще за грока обидно, он вежливее меня) а вообще наверное профдеформация - когда каждый день пишешь про AI и с AI, начинаешь и сам так формулировать. Скоро начну галлюцинировать ссылки на несуществующие исследования
Справедливый вопрос, граница размытая. Я для себя считаю "тулом" отдельный интерфейс куда ты переключаешься - другое окно, другой контекст, другой флоу. MCP внутри Claude Code это расширение того же инструмента, ты не переключаешь голову. А вот если ты открываешь Cursor в одном окне и ChatGPT в другом и прыгаешь между ними - это два тула, потому что каждый переход стоит когнитивных ресурсов.
По этой логике Cursor с двумя моделями внутри - один тул. Ты работаешь в одном интерфейсе и модель переключается под капотом. Но если ты параллельно ещё открываешь ChatGPT чтобы "перепроверить" - уже два.
Да, там разброс небольшой. Я эту цифру привел скорее как любопытный факт чем как доказательство - в самой статье написал "корреляция, не рецепт". Мне больше зацепило что таких людей всего 3%, то есть почти никто не попадает в этот диапазон. Все либо используют меньше, либо сильно больше.