makarsuperstar22 мая в 18:16

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM. Часть 4. Тестирование

Средний

19 мин

14K

Машинное обучение * DevOps * Open source *

Кейс

Комментарии 2

Ariless 26 мая в 12:19

Находка с initdb вместо pg_ctl reload - это Tool-Function hallucination: модель выбирает инструмент из правильной смысловой зоны, но с другим контрактом безопасности.

Тестировала AI-эндпоинт symptom checker - похожий паттерн. Golden dataset даёт чистый прогон, провалы появляются на граничных входах: неполные данные, конфликтующие симптомы. Метрики зелёные, поведение неожиданное.

makarsuperstar 26 мая в 17:41

Хорошо, что я не один! Спасибо за комментарий!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий