akozhin2 мар в 11:06

Третья эпоха разработки ПО с помощью ИИ

Простой

3 мин

8.5K

Искусственный интеллектТекстовые редакторы и IDE * Программирование * Будущее здесь

Мнение

Перевод

-6

Комментарии 9

Dhwtj 2 мар в 16:43

разработчик может передать задачу и заняться чем-то ещё. Агент прорабатывает её часами, итерируется и тестирует, пока не будет уверен в результате, а затем возвращается с тем, что можно быстро проверить

Очевидно, ТЗ или сотен тестов подготовленных вручную нет: дорого.

Внимание, вопрос: что же именно решает LLM всё это время?

У вас 5 минут, время пошло!

Агент проверяет ровно то, что автоматизировано.

Существующие автотесты (юнит, интеграционные). Скомпилируйтся или нет (то есть работают ли уже сформулированные утверждения выраженные в типах).

Работает на

Багфиксы с готовым тест-кейсом. Даешь падающий тест, агент крутится, пока не сделает его зеленым.

Рутинные миграции. Например, обновить вызовы старого API на новое по всей кодовой базе.

Чистые функции и изолированные алгоритмы. Там, где очевидны входы и выходы.

Бойлерплейт

если агент реально крутится часами автономно, на практике он занят не глубоким проектированием, а вязнет в болоте. А лучшем случае брутфорс кривого апиAPI. Читает кривую доку в сети, дергает эндпоинты, получает 400 Bad Request, перебирает структуру JSON вслепую.

Либо происходит взрыв когда простое требование меняет огромный объем кода

Dhwtj 2 мар в 17:26

Более осмысленный вариант:

Брутфорс кривых требований - "сделай чтобы пользователь видел X" и 50 попыток пока скриншот не совпадет. Тесты как оракул, визуальный diff как оракул. Агент не понимает что делает, но конвергирует с скриншотом или системой-образцом.

Копирование другой системы - "вот API/UI/скриншот образца, сделай такое же". Оракул внешний, верификация дешевая. Оракул должен быть машиночитаемым - скриншот, API-ответ, тест. Не человек. Это реально часы осмысленной автономной работы, только тупой и совсем дешёвой, которой человек бы не стал заниматься.

Оба случая объединяет: дешевая проверка, дорогая генерация человеком. Агент дешево генерирует, проверяет сам, итерирует. Человек тут не нужен в цикле. Но он и не стал бы заниматься такой фигнёй.

FSmile 2 мар в 21:00

Токены то крутятся. ИИ "революция" идет

FixicusMaximus 2 мар в 16:58

Как же радует, что внутри этих говноконтор инженеров почти не осталось и код пишут электронные болваны, ждемс, когда это все благополучно схлопнется

nauranec 6 мар в 06:05

На этой неделе ui версия claude лежала почти сутки, и не запускалась десктопная версия приложение. Зато они постоянно хвастаются, что уже чуть не половина кода у них написана ai-агентами

arch1lochus 2 мар в 17:27

Автор перевода говорит, что описанные практики совпадают с тем, что он реально наблюдает в своей работе. Но я, как человек с gpt plus за 20$, копирующий в "чатик" время от времени небольшие куски кода, всё никак не пойму, как должна выглядеть работа с автономными агентами.
Получается, агент контролирует мою рабочую машину, сам в IDE переключается между проектами? Сейчас я, например, отлаживаю несколько микросервисов, каждый из которых живет в отдельном проекте.
OK, допустим агент сделал небольшую доработку - далее он должен сам собрать docker images для обоих микросервисов, запушить их в репозиторий; зайти на dev-сервер по ssh, там в нужной директории сделать docker-compose pull, up -d, отправить толстенный xml на эндпойнт одного из них и отправиться в логи сначала одного сервиса, затем другого.
По результатам этого действия, итерации могут повторяться.
Нынешние агенты могут выполнять всё это автономно? Какое примерное количество токенов они съедят за одну такую простую итерацию?

Dhwtj 2 мар в 17:35

Возьмите вместо вашего девопс электронного болвана

Daimonn 2 мар в 18:52

у меня на пет проекте именно так агент и делает, ходит по ssh на сервер, все обновляет и настраивает, поднимает стэк, который я понятия не имею, как самому поднимать, т.к. не девопс. Я понимаю, что это все может быть дырявым, но это пет проект для себя.

На работе не доверяю ему никакой автономности и архитектурных решений, максимум "реализуй такой-то интерфейс" или функцию, с детальным ревью после.

nauranec 6 мар в 06:08

Могут, mcp servers / skills в помощь. Про токены не знаю, это и по подписке за 20 долларов можно сделать

Зарегистрируйтесь на Хабре, чтобы оставить комментарий