kucev24 сен 2024 в 12:28

Полный гид по бенчмаркам LLM

12 мин

12K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Комментарии 2

wearetyomsmnv 27 сен 2024 в 10:14

Можно добавить ещё это

https://github.com/aryakvnust/LLMSecGuard
https://github.com/tuhh-softsec/LLMSecEval
https://github.com/s2e-lab/SecurityEval

по безопасногенерации кода

и для vllm https://t.me/pwnai/546

mechkladenets 5 окт 2025 в 13:46

У RAG бенчмарков есть проблема, что все же они оценивают не весь пайплайн - например обычно оценивается генерация LLM и задача извлечения чанков из текста (как в FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation) но сам пайплайн ведь полнее - в нем есть понимание запроса юзера (а он может быть неполон), да и просто инструмент извлечения данных из pdf может плохо работать со скажем врезками или текстом сопровожденным графической информацией.
То есть бенчмарк все же не продуктовый

Зарегистрируйтесь на Хабре, чтобы оставить комментарий