Обновить

Комментарии 2

У RAG бенчмарков есть проблема, что все же они оценивают не весь пайплайн - например обычно оценивается генерация LLM и задача извлечения чанков из текста (как в FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation) но сам пайплайн ведь полнее - в нем есть понимание запроса юзера (а он может быть неполон), да и просто инструмент извлечения данных из pdf может плохо работать со скажем врезками или текстом сопровожденным графической информацией.
То есть бенчмарк все же не продуктовый

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации