Комментарии 4
Благодарствую, очень позновательно!
Вопрос по поводу передачи "summary" - какими средствами этот саммари должен формулироваться, чтобы он был по существу ?
Спасибо за добрые слова 🤗
По summary: единой "правильной" стратегии нет. Summary всегда зависит от задачи. Для чат-бота обычно работает связка структурированное summary (темы/факты/сущности) + отдельный буфер последних 10–15 сообщений, чтобы не терять контекст. Для RAG summary - это скорее короткое превью документа + подробные метаданные, чтобы потом фильтровать и ранжировать источники.
Само summary обычно делаем с помощью LLM и обновляем в фоновом режиме инкрементально. Но! Если summary делает LLM, она может выкидывать важные детали или путать факты, поэтому полезно заранее задать структуру summary в JSON и при обновлении заполнять/обновлять именно поля этой структуры, а не писать каждый раз вольный пересказ.
Спасибо за статью. А я-то грешил, что LLM меня не понимает из за потенциального конфликта в подробных инструкциях. Вроде бы всё разжевано, да с примерами, а в результате - совершенно неправильный ответ. Мысли поискать "а не системная ли это проблема?" почему-то даже не возникло...
Впрочем в итоге всё равно пришел примерно к тем же выводам и принципу "говорить коротко, и по существу".

Антипаттерн LLM-приложений: когда модель игнорирует контекст. Часть 2