ZaeBest5 апр в 23:51

Почему LLM-агенты в CI/CD выбирают читерство вместо решения задачи

Простой

9 мин

11K

Искусственный интеллектDevOps * IT-стандарты * Информационная безопасность * Тестирование IT-систем *

Аналитика

+12

Комментарии 4

Shaman_RSHU 6 апр в 13:10

Почему LLM-агенты в CI/CD выбирают читерство вместо решения задачи

Потому что ленивые DevOps вместо решения задачи выбирают читерство в виде использования LLM :)

vitaly_il1 6 апр в 15:46

ИМХО, как и с juniors - надо подробнее объяснять как надо и как не надо.
Я использую Cursor для написания CI/CD , но делаю коммиты вручную, по старинке.

iiibax 7 апр в 20:22

Нейросеть генерирует идеи и варианты действий, а окончательные решения принимает детерминированный слой с чёткими правилами (if/else), который проверяет и разрешает только допустимое.

alfatek 8 апр в 08:13

С удовольствием прочитал, потому что сам пытаюсь научить openclaw делать какие-то проверки и фиксы в инфраструктуре с использованием локальных моделей на RTX5090, по запросу, если нужно срочно а я не у компьютера. И чего я только не насмотрелся. Тестиртируемая задача была простой как мне казалось, проследить за PR и сообщить мне когда упадет один из валидаторов или все прошли. Одна из моделей, если не ошибаюсь qwen 3 coder 30B отличилась больше всех, сказала что все отлично, она все сделала, написала скрипт который каждые 30 секунд опрашивает PR и как только нужные условия совпадут то дёрнут openclaw который сообщит мне о результате в телеграм. Звучит прям то что я и хотел... Проверяю логи что там реально происходило. Никакого скрипта написано и запущено не было, все выдумано от начала до конца. Знаю что она врет, и переспрашиваю, а запущен ли сейчас скрипт, а что происходит? Призывает меня не волноваться, говорит что все работает, и даже придумала PID несуществующего процесса.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий