Комментарии 5
Попросите агента, например cloud code, и он вам все настроит и проверит.
Ps: сам не пробовал, но в других задачах интеграции он справляется у меня нормально
А нельзя агента посадить за ручное тестирование? Дать ему текст вашей статьи на Хабре. Пусть сам придумывает тест кейсы и как нейминг улучшить?
В итоге вы всё равно сидите в чате и проверяете: "А если спросить вот так? А если пользователь ошибется в имени?" Это не баг, это фича — именно так вы понимаете, как модель интерпретирует ваши описания, находите слабые места в нейминге и итеративно улучшаете инструменты
Отличный и правильный вопрос. Конечно есть возможность прикрутить бенчмарки и эвалы, использовать модельку (другую) для проверки результатов. И по-хорошему, надо с этого и начинать, такой, своего рода TDD. Но зачастую в реальном мире, которые еще и меняется раз в месяц, на нулевом этапе ты все равно что-то тестируешь вручную, пока набирается датасет для какой-то автоматизации.
Большое спасибо. Очень полезная статья. Скормил её своему агенту, запланировал рефакторинг.
Информация
- Сайт
- www.bitrix24.ru
- Дата регистрации
- Дата основания
- 1998
- Численность
- 501–1 000 человек
- Местоположение
- Россия
Что может пойти и обязательно пойдет не так при написании MCP-сервера