Обновить

LLM не работает за вас. Она работает с вами

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели12K
Всего голосов 27: ↑26 и ↓1+31
Комментарии21

Комментарии 21

Про пятый пункт очень в точку - на первых этапах сильно ломало нам взаимодействие.

Спасибо, что отметили. Тоже копий поломали..

«Если вы приносите структуру, она усиливает структуру. Если приносите хаос, она ускоряет хаос.» - в этой точке, по ощущениям, и зарождается Неолуддизм :)

Никогда не удавалось получить конкретный вопрос от LLM. Только вопросы типа, что вы хотите или чем вы располагаете.

LLM - Large Language Model

Примерно так и есть. На личном примере (dotnet backend):

  1. (Настройка): с github/awesome-copilot взят один агент и пара скилз, проекты хорошо прописаны в copilot-instructions.md, MCP сервер на ADO (Azure DevOps, там все тикеты)

  2. Начинаю с того, что задача должна быть нормально описана в тикете. Степень "нормальности" зависит от сложности, субъективный параметр. Если задача большая, можно взять помощь LLM с grill me агентом

  3. В Copilot CLI начинаю с /plan, потом черновая реализация в автопилоте.

  4. Смотрю сотворённое. Если совсем не то, возвращаюсь к 2 или 3

  5. Если процентов 70-80 на первый взгляд норм, сортирую на то, что надо менять, и то, что не надо.

  6. Довожу до ума, тестирую, и выкатываю PR

  1. Довожу до ума, тестирую, и выкатываю PR

Аналогично. Но не понимаю как пройти последние 20% на автопилоте, а не руках

Я над этим думал и пришёл к выводу, что можно (через настройку банды агентов с кросс-проверкой), но всё равно с оговоркой, что это удорожает процесс и всё равно не гарантирует 100% годноты.

А значит на текущем моменте не стоит потраченных на это усилий, поэтому "пока ждём" развития LLM и инструментов для работы с ними.

Огонь! Все чётко!

Интересные мысли!

Особенно интересные в скобках, про производительность в 50 раз и про аналогию с алкоголем :)

Интересно, продолжаем наблюдение - это пока он с нами работает, тренируется, потом за нас будет работать и жить!)))

А подскажите пожалуйста, куда засунуть фрактальность чтобы всё потекло.. Без возвратно?
Нужна точка в LLM, делали.. Потом откаты.. Так вот прошу точку не возврата подсказать. ;)

В последнее время занимаюсь обучением сотрудников довольно активно и выявил для себя очередную классификацию людей — по типу мышления. Про себя я называю их CPU и SSD. Люди-SSD имеют хорошую память, большого объёма и быстро умеют там находить прошлые решения. Но им требуется время и насмотренность чтобы накопить этот багаж, чтобы было где искать. Но зато потом это очень эффективные сотрудники в относительно узком диапазоне задач. И в этом их крутость, они не изобретают велосипед каждый раз. Ещё я их называю эрудитами.
Люди-CPU все схватывают "на лету", выявляют паттерны и закономерности, им важнее принципы чем готовые решения. Они с самого начала готовы хвататься за самые сложные задачи и на этом растут, но скорость их работы как правило гораздо ниже, ведь если с подобной задачи прошло больше пары дней им нужно придумать частное решение (велосипед) заново на основе принципов. Их я называю интеллектуалами.
Естественно большинство находится в той или иной точке этой шкалы.
Мне кажется раньше у людей-ssd было преимущество, количество рутинных операций значительно превосходило количество исследовательских задач. И было время эрудитов. Но с приходом LLM (наконец-то я закончил с контекстом и перехожу к сути) у них появился сильнейший конкурент. Теперь LLM позволяет реализовать поиск готовых частных решений. Да, в некоторых пределах и интеллектуальные задачи могут быть решены, но эта сторона гораздо слабее (пока не достигли AGI). Т.е. люди-cpu получают гораздо больший буст и наступает эра интеллектуалов. Рутинные задачи постепенно можно конвертировать в скиллы и браться за новые вызовы.

Интересное наблюдение

Согласен в общем, но добавлю — есть третий режим, кроме «работает за вас» и «работает с вами»: «работает по плану-контракту». У меня за месяц 125 инженерных планов закрыто агентами полностью автономно — без моего ежедневного участия. Не «AI пишет код за тебя», а «AI исполняет план который ты написал».

Отличие от вашего «работает с вами» — отделение проектирования от исполнения. Я думаю над планом и критериями приёмки (час), агент исполняет (30–60 минут реальной работы), я ревьюю результат (5–15 минут). Это другой коэффициент масштабирования.

Главный риск этой модели — агент уверенно ошибается в системных допущениях. Защита — отдельный агент-критик с обратным углом, проверяет допущения, а не код.

У меня, сожалению, в таком режиме слишком много переделывать приходится. Возможно, ваш подход работает для проектов до определеной сложности и неопределенности.

Это валидное возражение и важная граница. У меня тоже не всегда работает — на задачах, где критерии приёмки невозможно описать заранее (исследование, новые концепции, требующие постоянной переосмысления), агент будет крутиться вхолостую и переделывать много раз.

Где у меня работает: задачи, где можно жёстко описать «было/стало» через тесты или конкретный результат. Архитектурные решения принимаю сам (157 решений за месяц зафиксированы вручную), агентам отдаю только исполнение — реализуй фичу X в файле Y, чтобы тесты Z прошли, без регрессии остального.

Когда план невозможно описать ясно — да, не пытаюсь автономно. Тогда прототип сначала рукой, потом план уже на основе понимания.

Похоже, что наш опыт сходится

Похоже что так. У меня «план как контракт» работает на узкой полосе задач (повторяемая инженерия с явными тестами), твой «работает с вами» — шире и универсальнее. Спасибо за хорошую дискуссию.

Взаимно!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации