Обновить

Третья эпоха разработки ПО с помощью ИИ

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели7.8K
Всего голосов 10: ↑2 и ↓8-6
Комментарии7

Комментарии 7

разработчик может передать задачу и заняться чем-то ещё. Агент прорабатывает её часами, итерируется и тестирует, пока не будет уверен в результате, а затем возвращается с тем, что можно быстро проверить

Очевидно, ТЗ или сотен тестов подготовленных вручную нет: дорого.

Внимание, вопрос: что же именно решает LLM всё это время?

У вас 5 минут, время пошло!

Агент проверяет ровно то, что автоматизировано.

Существующие автотесты (юнит, интеграционные). Скомпилируйтся или нет (то есть работают ли уже сформулированные утверждения выраженные в типах).

Работает на

Багфиксы с готовым тест-кейсом. Даешь падающий тест, агент крутится, пока не сделает его зеленым.

Рутинные миграции. Например, обновить вызовы старого API на новое по всей кодовой базе.

Чистые функции и изолированные алгоритмы. Там, где очевидны входы и выходы.

Бойлерплейт

если агент реально крутится часами автономно, на практике он занят не глубоким проектированием, а вязнет в болоте. А лучшем случае брутфорс кривого апиAPI. Читает кривую доку в сети, дергает эндпоинты, получает 400 Bad Request, перебирает структуру JSON вслепую.

Либо происходит взрыв когда простое требование меняет огромный объем кода

Более осмысленный вариант:

Брутфорс кривых требований - "сделай чтобы пользователь видел X" и 50 попыток пока скриншот не совпадет. Тесты как оракул, визуальный diff как оракул. Агент не понимает что делает, но конвергирует с скриншотом или системой-образцом.

Копирование другой системы - "вот API/UI/скриншот образца, сделай такое же". Оракул внешний, верификация дешевая. Оракул должен быть машиночитаемым - скриншот, API-ответ, тест. Не человек. Это реально часы осмысленной автономной работы, только тупой и совсем дешёвой, которой человек бы не стал заниматься.

Оба случая объединяет: дешевая проверка, дорогая генерация человеком. Агент дешево генерирует, проверяет сам, итерирует. Человек тут не нужен в цикле. Но он и не стал бы заниматься такой фигнёй.

Токены то крутятся. ИИ "революция" идет

Как же радует, что внутри этих говноконтор инженеров почти не осталось и код пишут электронные болваны, ждемс, когда это все благополучно схлопнется

Автор перевода говорит, что описанные практики совпадают с тем, что он реально наблюдает в своей работе. Но я, как человек с gpt plus за 20$, копирующий в "чатик" время от времени небольшие куски кода, всё никак не пойму, как должна выглядеть работа с автономными агентами.
Получается, агент контролирует мою рабочую машину, сам в IDE переключается между проектами? Сейчас я, например, отлаживаю несколько микросервисов, каждый из которых живет в отдельном проекте.
OK, допустим агент сделал небольшую доработку - далее он должен сам собрать docker images для обоих микросервисов, запушить их в репозиторий; зайти на dev-сервер по ssh, там в нужной директории сделать docker-compose pull, up -d, отправить толстенный xml на эндпойнт одного из них и отправиться в логи сначала одного сервиса, затем другого.
По результатам этого действия, итерации могут повторяться.
Нынешние агенты могут выполнять всё это автономно? Какое примерное количество токенов они съедят за одну такую простую итерацию?

Возьмите вместо вашего девопс электронного болвана

у меня на пет проекте именно так агент и делает, ходит по ssh на сервер, все обновляет и настраивает, поднимает стэк, который я понятия не имею, как самому поднимать, т.к. не девопс. Я понимаю, что это все может быть дырявым, но это пет проект для себя.

На работе не доверяю ему никакой автономности и архитектурных решений, максимум "реализуй такой-то интерфейс" или функцию, с детальным ревью после.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации