Comments 2
Можно добавить ещё это
https://github.com/aryakvnust/LLMSecGuard
https://github.com/tuhh-softsec/LLMSecEval
https://github.com/s2e-lab/SecurityEval
по безопасногенерации кода
и для vllm https://t.me/pwnai/546
У RAG бенчмарков есть проблема, что все же они оценивают не весь пайплайн - например обычно оценивается генерация LLM и задача извлечения чанков из текста (как в FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation) но сам пайплайн ведь полнее - в нем есть понимание запроса юзера (а он может быть неполон), да и просто инструмент извлечения данных из pdf может плохо работать со скажем врезками или текстом сопровожденным графической информацией.
То есть бенчмарк все же не продуктовый
Sign up to leave a comment.
Полный гид по бенчмаркам LLM