All streams
Search
Write a publication
Pull to refresh

Comments 2

У RAG бенчмарков есть проблема, что все же они оценивают не весь пайплайн - например обычно оценивается генерация LLM и задача извлечения чанков из текста (как в FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation) но сам пайплайн ведь полнее - в нем есть понимание запроса юзера (а он может быть неполон), да и просто инструмент извлечения данных из pdf может плохо работать со скажем врезками или текстом сопровожденным графической информацией.
То есть бенчмарк все же не продуктовый

Sign up to leave a comment.

Articles