Обновить

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM. Часть 4. Тестирование

Уровень сложностиСредний
Время на прочтение19 мин
Охват и читатели14K
Всего голосов 7: ↑7 и ↓0+9
Комментарии2

Комментарии 2

Находка с initdb вместо pg_ctl reload - это Tool-Function hallucination: модель выбирает инструмент из правильной смысловой зоны, но с другим контрактом безопасности.

Тестировала AI-эндпоинт symptom checker - похожий паттерн. Golden dataset даёт чистый прогон, провалы появляются на граничных входах: неполные данные, конфликтующие симптомы. Метрики зелёные, поведение неожиданное.

Хорошо, что я не один! Спасибо за комментарий!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации