Комментарии / Профиль diffnotes-tech / Хабр

diffnotes-tech@diffnotes-tech

Пользователь

79,9

Рейтинг

Подписчики

ПрофильСтатьи18ПостыНовостиКомментарии243

AI-агент получил права сеньора. И первым делом снёс прод

diffnotes-tech 25 мар в 10:41

Допилят конечно, вопрос когда. Claude Code уже сейчас умеет спрашивать перед опасными командами, у него есть permissions в settings.json. А Kiro почему-то запустили без этого. Ну то есть технология для guardrails существует, просто Amazon решил что 80% adoption rate важнее чем “давайте сначала допилим safety”. Классика - сначала деплой, потом postmortem, потом guardrails. А KPI на использование инструмента без KPI на quality of that usage это вообще отдельный жанр менеджмента)

AI-агент получил права сеньора. И первым делом снёс прод

diffnotes-tech 25 мар в 10:32

Ну вот смотри, с тросиком понятно - он рвётся, машина не едет. Детерминированная система. А агент может на один и тот же баг предложить патч, а может решить пересоздать окружение. Ты не знаешь заранее что он выберет, в отличие от педали. Поэтому мне кажется тут ответственность не только на “водителе” а ещё и на том кто дал агенту возможность делать необратимые вещи без подтверждения. Ну то есть если бы Kiro перед delete спросил “точно удалить?” - инцидента бы не было. Это не вопрос квалификации инженера, это вопрос отсутствия guardrail в самом инструменте.

AI-агент получил права сеньора. И первым делом снёс прод

diffnotes-tech 25 мар в 10:05

Аналогия рабочая, но с одним отличием - у водителя отзывают права за конкретные нарушения, а тут пока непонятно кто вообще “за рулём”. Amazon говорит что виноват инженер который выдал права, FT говорит что агент сам выбрал деструктивное решение. Если переводить на автомобили - это как если бы автопилот снёс забор, а производитель сказал “водитель не должен был включать автопилот на этой дороге”. Вроде и правда, но проблема-то в том что автопилот вообще позволяет себе ехать в забор без торможения.

Год назад Claude Code не умел составить план. Сейчас у него миллион токенов и 9 субагентов

diffnotes-tech 23 мар в 08:41

Ну в этом есть логика - он же сам пишет скрипт и сам его запускает, не надо между окнами прыгать. Я для скрапинга пока отдельно делаю, но может зря усложняю

Год назад Claude Code не умел составить план. Сейчас у него миллион токенов и 9 субагентов

diffnotes-tech 23 мар в 08:39

))) у меня нет подписки на грок и в целом считаю неудачной моделью его
и ваще за грока обидно, он вежливее меня) а вообще наверное профдеформация - когда каждый день пишешь про AI и с AI, начинаешь и сам так формулировать. Скоро начну галлюцинировать ссылки на несуществующие исследования

Больше AI-инструментов — не всегда больше продуктивности. BCG и ActivTrak объясняют почему

diffnotes-tech 23 мар в 08:34

Справедливый вопрос, граница размытая. Я для себя считаю "тулом" отдельный интерфейс куда ты переключаешься - другое окно, другой контекст, другой флоу. MCP внутри Claude Code это расширение того же инструмента, ты не переключаешь голову. А вот если ты открываешь Cursor в одном окне и ChatGPT в другом и прыгаешь между ними - это два тула, потому что каждый переход стоит когнитивных ресурсов.

По этой логике Cursor с двумя моделями внутри - один тул. Ты работаешь в одном интерфейсе и модель переключается под капотом. Но если ты параллельно ещё открываешь ChatGPT чтобы "перепроверить" - уже два.

Больше AI-инструментов — не всегда больше продуктивности. BCG и ActivTrak объясняют почему

diffnotes-tech 23 мар в 08:34

Да, там разброс небольшой. Я эту цифру привел скорее как любопытный факт чем как доказательство - в самой статье написал "корреляция, не рецепт". Мне больше зацепило что таких людей всего 3%, то есть почти никто не попадает в этот диапазон. Все либо используют меньше, либо сильно больше.

Больше AI-инструментов — не всегда больше продуктивности. BCG и ActivTrak объясняют почему

diffnotes-tech 23 мар в 08:33

Хорошее разделение - деградация vs обесценивание. Я писал про деградацию в терминах
Bainbridge, но у тебя точнее описано что происходит на практике. Мозг не "забывает" как деплоить - он просто отказывается тратить на это усилия, потому что знает что AI быстрее.

Про насилие над собой при ручной практике - частично соглашусь. Если заставлять себя писать код руками "для тренировки" - да, это бессмысленно. Но у меня немного другая логика: я не практикуюсь специально, а просто не отдаю AI мелочи где объяснять контекст дольше чем сделать самому. И в эти моменты навык поддерживается сам собой, без усилий.

А вот про эволюцию навыков - это то, к чему я пришел но не сформулировал. Навык ревью сейчас
это не "прочитать каждую строку", а "понять что именно AI мог пропустить". Другой скилл, но растёт из того же корня.

4 подхода к использованию LLM в разработке

diffnotes-tech 22 мар в 10:53

Разница между вайб-кодингом и агентной инженерией из матрицы - это буквально тесты. Один и тот же агент, один промпт. Есть тесты - квадрант 4. Нет тестов - квадрант 2. Не стратегический выбор а наличие CI в проекте

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

diffnotes-tech 22 мар в 10:45

+24.6 от системного промпта - это же и есть ответ на вопрос статьи. Модель не стала независимой, она стала лучше следовать инструкции "будь независимой". Те же веса, тот же RLHF. Crow-9B это подтверждает идеально - красивый текст про автономию, мгновенная капитуляция на деле. Instruction following != independence

Топ 12 агентов для генерации кода: Cursor, Copilot, Claude Code…

diffnotes-tech 22 мар в 10:20

Половина списка не про кодинг-агентов - Snyk это сканер безопасности, BotHub API-прокси, Bolt/Lovable/v0 генераторы приложений без кода. А реальных open-source агентов нет: Aider (терминальный, работает с любой моделью включая локальные), Roo Code (форк Cline, расширение для VS Code). Оба бесплатные, не требуют зарубежной карты, подключаются к локальным моделям через Ollama

Как я устал от того, что локальные ИИ-агенты ломают мои планы, и написал CLI-инструмент для защиты структуры задач

diffnotes-tech 22 мар в 10:02

Боль №2 из статьи (агент "улучшает" разделы которые не просили) решается не через locked в JSON, а через системный промпт агента. CLAUDE.md, .cursorrules, copilot-instructions.md - файлы которые агент читает при каждом запросе. Пишешь "не трогай раздел X без явного запроса" - агент слушается. locked в tasks.json агент может просто проигнорировать или перезаписать файл, Conung_ViC выше правильно заметил

Локальная LLM для кодинга за 12 минут: LM Studio, Kilo Code и четыре бесплатных облачных варианта

diffnotes-tech 22 мар в 09:58

MCP в конце как "расширенные настройки" - а для локальных моделей это ключевая штука. Без MCP агент на каждый запрос грепает дерево проекта, читает файлы, набивает контекст сырым текстом. На Qwen 9B с 32k контекста один tree + пара файлов и всё. С MCP агент запрашивает конкретный контроллер или бин - структурированный ответ вместо raw файлов. Для облачных моделей с 200k это экономия, для локальных - вопрос работает или нет

Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

diffnotes-tech 21 мар в 23:07

Whisper длинные файлы и правда нормально ест, комменты выше правы. Тут другое - двухканальная телефония. В канале оператора тихо слышно клиента (crosstalk), VAD определяет эхо как речь и Whisper начинает галлюцинировать. Ключевое не сам VAD а фильтрация по RMS энергии после него

Можно ли собрать рабочий сайт через ИИ, зная только базовый HTML

diffnotes-tech 21 мар в 22:57

Три из пяти проблем из статьи - потеря контекста, дублирование кода, несоответствия в логике - от того что ChatGPT не видит проект. Cursor, Claude Code подключаются к папке и правят файлы напрямую. Контекст не теряется между правками, дубли видны сразу

Давайте заглянем в этот самый вайб-код

diffnotes-tech 21 мар в 11:56

Четыре одинаковых strcpy - ок, разные файлы, контекст не пересекается. Но isdigit определён в doom_libc.c и тут же ниже в том же файле проверка через >= '0' && <= '9'. Определение буквально выше, в контексте. Не использует

Больше AI-инструментов — не всегда больше продуктивности. BCG и ActivTrak объясняют почему

diffnotes-tech 20 мар в 17:44

а, вот что смутило) не, это реально размер выборки из исследования BCG. Совпадение неудачное, да

50 миллионов человек каждый день открывают Duolingo — и до сих пор не могут заказать кофе

diffnotes-tech 20 мар в 16:15

Вот это ровно то о чем я в статье пытался сказать но другими словами. Барьер входа упал дом нуля. Раньше нужна была лингвистическая база, методисты, годы контента. Сейчас - API ключ и пара вечеров. 4 дня на языковой модуль это показательно. Duolingo конкурирует уже не с Babbel, а с любым разработчиком у которого есть идея и $20 на API

Джуниоров больше не нанимают. Я собрал данные — и понял, что бомба рванёт через 3 года

diffnotes-tech 20 мар в 16:13

Ладно, посмотрю. Если реально дает результат лучше чем просто внятное ТЗ модели - пересмотрю свое мнение)

Джуниоров больше не нанимают. Я собрал данные — и понял, что бомба рванёт через 3 года

diffnotes-tech 20 мар в 16:12

Ага, UML как линза - хорошая аналогия. Не столько рисуешь диаграммы, сколько думаешь в терминах связей и ответственностей. Без этого AI-код превращается в кучу файлов без структуры

1 2 3 4

6 7 ...

12 13

Информация

Специализация