Обновить

Локальный RAG без магии: sources, timings, request_id и отказ от генерации

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели6.2K
Всего голосов 8: ↑8 и ↓0+10
Комментарии2

Комментарии 2

А что в итоге оказалось слабым местом? качество чанкинга, поиск по embeddings или сбор контекста перед запросом к llm? По опыту именно на этом этапе RAG чаще всего начинает ехать.

Да, на этом этапе RAG чаще всего и начинает “ехать”. В моём случае по скорости слабым местом была generation: retrieval занимал около 2 секунд, а локальная llm могла отвечать десятки секунд.

По качеству слабое место оказалось на границе retrieval/filtering: semantic search что то находит почти всегда, но похожий chunk не всегда даёт достаточный контекст для ответа. Поэтому добавил strong/borderline пороги, negative tests и exact-term guard для технических токенов, то есть backend должен не просто собрать prompt, а сначала решить есть ли вообще смысл вызывать llm.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации