Полный гид по бенчмаркам LLM / Comments / Habr

У RAG бенчмарков есть проблема, что все же они оценивают не весь пайплайн - например обычно оценивается генерация LLM и задача извлечения чанков из текста (как в FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation) но сам пайплайн ведь полнее - в нем есть понимание запроса юзера (а он может быть неполон), да и просто инструмент извлечения данных из pdf может плохо работать со скажем врезками или текстом сопровожденным графической информацией.
То есть бенчмарк все же не продуктовый

Полный гид по бенчмаркам LLM

Comments 2

Articles