Комментарии 3
Хороший кейс именно про grounding, а не про «прикрутили LLM и надеемся». Мне кажется, в такой схеме полезно явно разделять три слоя качества:
Поняла ли модель пользовательский запрос: извлекла кандидатов, год, актёров, жанровые признаки, ограничения.
Подтвердился ли кандидат внешним источником: TMDB/API, совпадение по нескольким полям, наличие постера/релиза/альтернативных названий.
Удовлетворён ли пользователь результатом: клик по карточке, добавление в список, повторный уточняющий запрос, ручной выбор другого варианта.
Тогда можно ловить разные типы ошибок отдельно. Например, если модель угадала фильм, но API ранжирует не тот релиз — это не та же проблема, что hallucination. А если пользователь постоянно уточняет запрос после выдачи, это уже сигнал не только про точность, но и про UX объяснения результата.
Ещё я бы отдельно логировал «нулевые» ответы. В продуктах с LLM соблазн всегда показать хоть что-то, но иногда честное «не нашёл, уточните эпоху/актёра/сцену» лучше, чем красивая карточка не того фильма.
Столько всего интересного, спасибо!

Сдерживаем полет фантазии LLM в киносервисе