Комментарии 2
Самое забавное, уровень энтропии при уверенной галлюцинации может быть вполне себе низким.
В целом, статья не похожа на реальный кейс. И в целом, всё начало вызывать у меня подозрения.
Хорошее замечание про энтропию. Вы правы — и это явно указано в разделе "Ограничения метода" (ближе к концу блока про энтропию).
Суть в том, что entropy-based detection — это pre-filter, а не полное решение. Он экономит 60-70% RAG-вызовов, фильтруя очевидно нормальный контент. Для flagged sentences вызывается полноценная RAG-валидация (Conditional RAG Strategy).
То есть это не "энтропия вместо проверки", а "энтропия как первый уровень фильтрации + RAG для подозрительных мест".
По поводу реальности кейса — если есть конкретные сомнения в цифрах или архитектуре, давайте разберём.

LLM Judge для валидации образовательного контента: архитектура кросс-модельной оценки с бюджетом $0.014 за курс