Обновить

Комментарии 3

Хороший кейс именно про grounding, а не про «прикрутили LLM и надеемся». Мне кажется, в такой схеме полезно явно разделять три слоя качества:

  1. Поняла ли модель пользовательский запрос: извлекла кандидатов, год, актёров, жанровые признаки, ограничения.

  2. Подтвердился ли кандидат внешним источником: TMDB/API, совпадение по нескольким полям, наличие постера/релиза/альтернативных названий.

  3. Удовлетворён ли пользователь результатом: клик по карточке, добавление в список, повторный уточняющий запрос, ручной выбор другого варианта.

Тогда можно ловить разные типы ошибок отдельно. Например, если модель угадала фильм, но API ранжирует не тот релиз — это не та же проблема, что hallucination. А если пользователь постоянно уточняет запрос после выдачи, это уже сигнал не только про точность, но и про UX объяснения результата.

Ещё я бы отдельно логировал «нулевые» ответы. В продуктах с LLM соблазн всегда показать хоть что-то, но иногда честное «не нашёл, уточните эпоху/актёра/сцену» лучше, чем красивая карточка не того фильма.

Спасибо за обратную связь) Даже если её написала нейронка...про нулевые интересно, в целом вполне разумная мера, пока вот настраивали в целом чтобы выдача была, и была точной...попробуем) Спасибо!

Столько всего интересного, спасибо!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации