Допилят конечно, вопрос когда. Claude Code уже сейчас умеет спрашивать перед опасными командами, у него есть permissions в settings.json. А Kiro почему-то запустили без этого. Ну то есть технология для guardrails существует, просто Amazon решил что 80% adoption rate важнее чем “давайте сначала допилим safety”. Классика - сначала деплой, потом postmortem, потом guardrails. А KPI на использование инструмента без KPI на quality of that usage это вообще отдельный жанр менеджмента)
Ну вот смотри, с тросиком понятно - он рвётся, машина не едет. Детерминированная система. А агент может на один и тот же баг предложить патч, а может решить пересоздать окружение. Ты не знаешь заранее что он выберет, в отличие от педали. Поэтому мне кажется тут ответственность не только на “водителе” а ещё и на том кто дал агенту возможность делать необратимые вещи без подтверждения. Ну то есть если бы Kiro перед delete спросил “точно удалить?” - инцидента бы не было. Это не вопрос квалификации инженера, это вопрос отсутствия guardrail в самом инструменте.
Аналогия рабочая, но с одним отличием - у водителя отзывают права за конкретные нарушения, а тут пока непонятно кто вообще “за рулём”. Amazon говорит что виноват инженер который выдал права, FT говорит что агент сам выбрал деструктивное решение. Если переводить на автомобили - это как если бы автопилот снёс забор, а производитель сказал “водитель не должен был включать автопилот на этой дороге”. Вроде и правда, но проблема-то в том что автопилот вообще позволяет себе ехать в забор без торможения.
Ну в этом есть логика - он же сам пишет скрипт и сам его запускает, не надо между окнами прыгать. Я для скрапинга пока отдельно делаю, но может зря усложняю
))) у меня нет подписки на грок и в целом считаю неудачной моделью его и ваще за грока обидно, он вежливее меня) а вообще наверное профдеформация - когда каждый день пишешь про AI и с AI, начинаешь и сам так формулировать. Скоро начну галлюцинировать ссылки на несуществующие исследования
Справедливый вопрос, граница размытая. Я для себя считаю "тулом" отдельный интерфейс куда ты переключаешься - другое окно, другой контекст, другой флоу. MCP внутри Claude Code это расширение того же инструмента, ты не переключаешь голову. А вот если ты открываешь Cursor в одном окне и ChatGPT в другом и прыгаешь между ними - это два тула, потому что каждый переход стоит когнитивных ресурсов.
По этой логике Cursor с двумя моделями внутри - один тул. Ты работаешь в одном интерфейсе и модель переключается под капотом. Но если ты параллельно ещё открываешь ChatGPT чтобы "перепроверить" - уже два.
Да, там разброс небольшой. Я эту цифру привел скорее как любопытный факт чем как доказательство - в самой статье написал "корреляция, не рецепт". Мне больше зацепило что таких людей всего 3%, то есть почти никто не попадает в этот диапазон. Все либо используют меньше, либо сильно больше.
Хорошее разделение - деградация vs обесценивание. Я писал про деградацию в терминах Bainbridge, но у тебя точнее описано что происходит на практике. Мозг не "забывает" как деплоить - он просто отказывается тратить на это усилия, потому что знает что AI быстрее.
Про насилие над собой при ручной практике - частично соглашусь. Если заставлять себя писать код руками "для тренировки" - да, это бессмысленно. Но у меня немного другая логика: я не практикуюсь специально, а просто не отдаю AI мелочи где объяснять контекст дольше чем сделать самому. И в эти моменты навык поддерживается сам собой, без усилий.
А вот про эволюцию навыков - это то, к чему я пришел но не сформулировал. Навык ревью сейчас это не "прочитать каждую строку", а "понять что именно AI мог пропустить". Другой скилл, но растёт из того же корня.
Разница между вайб-кодингом и агентной инженерией из матрицы - это буквально тесты. Один и тот же агент, один промпт. Есть тесты - квадрант 4. Нет тестов - квадрант 2. Не стратегический выбор а наличие CI в проекте
+24.6 от системного промпта - это же и есть ответ на вопрос статьи. Модель не стала независимой, она стала лучше следовать инструкции "будь независимой". Те же веса, тот же RLHF. Crow-9B это подтверждает идеально - красивый текст про автономию, мгновенная капитуляция на деле. Instruction following != independence
Половина списка не про кодинг-агентов - Snyk это сканер безопасности, BotHub API-прокси, Bolt/Lovable/v0 генераторы приложений без кода. А реальных open-source агентов нет: Aider (терминальный, работает с любой моделью включая локальные), Roo Code (форк Cline, расширение для VS Code). Оба бесплатные, не требуют зарубежной карты, подключаются к локальным моделям через Ollama
Боль №2 из статьи (агент "улучшает" разделы которые не просили) решается не через locked в JSON, а через системный промпт агента. CLAUDE.md, .cursorrules, copilot-instructions.md - файлы которые агент читает при каждом запросе. Пишешь "не трогай раздел X без явного запроса" - агент слушается. locked в tasks.json агент может просто проигнорировать или перезаписать файл, Conung_ViC выше правильно заметил
MCP в конце как "расширенные настройки" - а для локальных моделей это ключевая штука. Без MCP агент на каждый запрос грепает дерево проекта, читает файлы, набивает контекст сырым текстом. На Qwen 9B с 32k контекста один tree + пара файлов и всё. С MCP агент запрашивает конкретный контроллер или бин - структурированный ответ вместо raw файлов. Для облачных моделей с 200k это экономия, для локальных - вопрос работает или нет
Whisper длинные файлы и правда нормально ест, комменты выше правы. Тут другое - двухканальная телефония. В канале оператора тихо слышно клиента (crosstalk), VAD определяет эхо как речь и Whisper начинает галлюцинировать. Ключевое не сам VAD а фильтрация по RMS энергии после него
Три из пяти проблем из статьи - потеря контекста, дублирование кода, несоответствия в логике - от того что ChatGPT не видит проект. Cursor, Claude Code подключаются к папке и правят файлы напрямую. Контекст не теряется между правками, дубли видны сразу
Четыре одинаковых strcpy - ок, разные файлы, контекст не пересекается. Но isdigit определён в doom_libc.c и тут же ниже в том же файле проверка через >= '0' && <= '9'. Определение буквально выше, в контексте. Не использует
Вот это ровно то о чем я в статье пытался сказать но другими словами. Барьер входа упал дом нуля. Раньше нужна была лингвистическая база, методисты, годы контента. Сейчас - API ключ и пара вечеров. 4 дня на языковой модуль это показательно. Duolingo конкурирует уже не с Babbel, а с любым разработчиком у которого есть идея и $20 на API
Ага, UML как линза - хорошая аналогия. Не столько рисуешь диаграммы, сколько думаешь в терминах связей и ответственностей. Без этого AI-код превращается в кучу файлов без структуры
Допилят конечно, вопрос когда. Claude Code уже сейчас умеет спрашивать перед опасными командами, у него есть permissions в settings.json. А Kiro почему-то запустили без этого. Ну то есть технология для guardrails существует, просто Amazon решил что 80% adoption rate важнее чем “давайте сначала допилим safety”. Классика - сначала деплой, потом postmortem, потом guardrails. А KPI на использование инструмента без KPI на quality of that usage это вообще отдельный жанр менеджмента)
Ну вот смотри, с тросиком понятно - он рвётся, машина не едет. Детерминированная система. А агент может на один и тот же баг предложить патч, а может решить пересоздать окружение. Ты не знаешь заранее что он выберет, в отличие от педали. Поэтому мне кажется тут ответственность не только на “водителе” а ещё и на том кто дал агенту возможность делать необратимые вещи без подтверждения. Ну то есть если бы Kiro перед delete спросил “точно удалить?” - инцидента бы не было. Это не вопрос квалификации инженера, это вопрос отсутствия guardrail в самом инструменте.
Аналогия рабочая, но с одним отличием - у водителя отзывают права за конкретные нарушения, а тут пока непонятно кто вообще “за рулём”. Amazon говорит что виноват инженер который выдал права, FT говорит что агент сам выбрал деструктивное решение. Если переводить на автомобили - это как если бы автопилот снёс забор, а производитель сказал “водитель не должен был включать автопилот на этой дороге”. Вроде и правда, но проблема-то в том что автопилот вообще позволяет себе ехать в забор без торможения.
Ну в этом есть логика - он же сам пишет скрипт и сам его запускает, не надо между окнами прыгать. Я для скрапинга пока отдельно делаю, но может зря усложняю
))) у меня нет подписки на грок и в целом считаю неудачной моделью его
и ваще за грока обидно, он вежливее меня) а вообще наверное профдеформация - когда каждый день пишешь про AI и с AI, начинаешь и сам так формулировать. Скоро начну галлюцинировать ссылки на несуществующие исследования
Справедливый вопрос, граница размытая. Я для себя считаю "тулом" отдельный интерфейс куда ты переключаешься - другое окно, другой контекст, другой флоу. MCP внутри Claude Code это расширение того же инструмента, ты не переключаешь голову. А вот если ты открываешь Cursor в одном окне и ChatGPT в другом и прыгаешь между ними - это два тула, потому что каждый переход стоит когнитивных ресурсов.
По этой логике Cursor с двумя моделями внутри - один тул. Ты работаешь в одном интерфейсе и модель переключается под капотом. Но если ты параллельно ещё открываешь ChatGPT чтобы "перепроверить" - уже два.
Да, там разброс небольшой. Я эту цифру привел скорее как любопытный факт чем как доказательство - в самой статье написал "корреляция, не рецепт". Мне больше зацепило что таких людей всего 3%, то есть почти никто не попадает в этот диапазон. Все либо используют меньше, либо сильно больше.
Хорошее разделение - деградация vs обесценивание. Я писал про деградацию в терминах
Bainbridge, но у тебя точнее описано что происходит на практике. Мозг не "забывает" как деплоить - он просто отказывается тратить на это усилия, потому что знает что AI быстрее.
Про насилие над собой при ручной практике - частично соглашусь. Если заставлять себя писать код руками "для тренировки" - да, это бессмысленно. Но у меня немного другая логика: я не практикуюсь специально, а просто не отдаю AI мелочи где объяснять контекст дольше чем сделать самому. И в эти моменты навык поддерживается сам собой, без усилий.
А вот про эволюцию навыков - это то, к чему я пришел но не сформулировал. Навык ревью сейчас
это не "прочитать каждую строку", а "понять что именно AI мог пропустить". Другой скилл, но растёт из того же корня.
Разница между вайб-кодингом и агентной инженерией из матрицы - это буквально тесты. Один и тот же агент, один промпт. Есть тесты - квадрант 4. Нет тестов - квадрант 2. Не стратегический выбор а наличие CI в проекте
+24.6 от системного промпта - это же и есть ответ на вопрос статьи. Модель не стала независимой, она стала лучше следовать инструкции "будь независимой". Те же веса, тот же RLHF. Crow-9B это подтверждает идеально - красивый текст про автономию, мгновенная капитуляция на деле. Instruction following != independence
Половина списка не про кодинг-агентов - Snyk это сканер безопасности, BotHub API-прокси, Bolt/Lovable/v0 генераторы приложений без кода. А реальных open-source агентов нет: Aider (терминальный, работает с любой моделью включая локальные), Roo Code (форк Cline, расширение для VS Code). Оба бесплатные, не требуют зарубежной карты, подключаются к локальным моделям через Ollama
Боль №2 из статьи (агент "улучшает" разделы которые не просили) решается не через locked в JSON, а через системный промпт агента. CLAUDE.md, .cursorrules, copilot-instructions.md - файлы которые агент читает при каждом запросе. Пишешь "не трогай раздел X без явного запроса" - агент слушается. locked в tasks.json агент может просто проигнорировать или перезаписать файл, Conung_ViC выше правильно заметил
MCP в конце как "расширенные настройки" - а для локальных моделей это ключевая штука. Без MCP агент на каждый запрос грепает дерево проекта, читает файлы, набивает контекст сырым текстом. На Qwen 9B с 32k контекста один tree + пара файлов и всё. С MCP агент запрашивает конкретный контроллер или бин - структурированный ответ вместо raw файлов. Для облачных моделей с 200k это экономия, для локальных - вопрос работает или нет
Whisper длинные файлы и правда нормально ест, комменты выше правы. Тут другое - двухканальная телефония. В канале оператора тихо слышно клиента (crosstalk), VAD определяет эхо как речь и Whisper начинает галлюцинировать. Ключевое не сам VAD а фильтрация по RMS энергии после него
Три из пяти проблем из статьи - потеря контекста, дублирование кода, несоответствия в логике - от того что ChatGPT не видит проект. Cursor, Claude Code подключаются к папке и правят файлы напрямую. Контекст не теряется между правками, дубли видны сразу
Четыре одинаковых strcpy - ок, разные файлы, контекст не пересекается. Но isdigit определён в doom_libc.c и тут же ниже в том же файле проверка через >= '0' && <= '9'. Определение буквально выше, в контексте. Не использует
а, вот что смутило) не, это реально размер выборки из исследования BCG. Совпадение неудачное, да
Вот это ровно то о чем я в статье пытался сказать но другими словами. Барьер входа упал дом нуля. Раньше нужна была лингвистическая база, методисты, годы контента. Сейчас - API ключ и пара вечеров. 4 дня на языковой модуль это показательно. Duolingo конкурирует уже не с Babbel, а с любым разработчиком у которого есть идея и $20 на API
Ладно, посмотрю. Если реально дает результат лучше чем просто внятное ТЗ модели - пересмотрю свое мнение)
Ага, UML как линза - хорошая аналогия. Не столько рисуешь диаграммы, сколько думаешь в терминах связей и ответственностей. Без этого AI-код превращается в кучу файлов без структуры