Обновить

Почему LLM-агенты в CI/CD выбирают читерство вместо решения задачи

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели11K
Всего голосов 10: ↑10 и ↓0+12
Комментарии4

Комментарии 4

Почему LLM-агенты в CI/CD выбирают читерство вместо решения задачи

Потому что ленивые DevOps вместо решения задачи выбирают читерство в виде использования LLM :)

ИМХО, как и с juniors - надо подробнее объяснять как надо и как не надо.
Я использую Cursor для написания CI/CD , но делаю коммиты вручную, по старинке.

Нейросеть генерирует идеи и варианты действий, а окончательные решения принимает детерминированный слой с чёткими правилами (if/else), который проверяет и разрешает только допустимое.

С удовольствием прочитал, потому что сам пытаюсь научить openclaw делать какие-то проверки и фиксы в инфраструктуре с использованием локальных моделей на RTX5090, по запросу, если нужно срочно а я не у компьютера. И чего я только не насмотрелся. Тестиртируемая задача была простой как мне казалось, проследить за PR и сообщить мне когда упадет один из валидаторов или все прошли. Одна из моделей, если не ошибаюсь qwen 3 coder 30B отличилась больше всех, сказала что все отлично, она все сделала, написала скрипт который каждые 30 секунд опрашивает PR и как только нужные условия совпадут то дёрнут openclaw который сообщит мне о результате в телеграм. Звучит прям то что я и хотел... Проверяю логи что там реально происходило. Никакого скрипта написано и запущено не было, все выдумано от начала до конца. Знаю что она врет, и переспрашиваю, а запущен ли сейчас скрипт, а что происходит? Призывает меня не волноваться, говорит что все работает, и даже придумала PID несуществующего процесса.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации