larayoda9 мар в 21:15

Lexometrica Ground Truth: бенчмарк LLM по российскому праву

Сложный

7 мин

8.2K

Аналитика

Комментарии 8

Спасибо за тест!

Для своих задач использую разные модели для каждого этапа.

ага, самый правильный способ! мы даже пошли немного дальше, для одной и той же задачи на продакшене используем консенсус трех топов из рейтинга 🙂

Пробовал вводить такой подход - по мне оказалось нецелесообразно - остановился на повторной оценке используемой модели при ее обновлении

Очень полезно, спасибо!

o1 pro? Это Gemini подсказал со знаниями из 2024?) o серия уже устарела и давно депрекейтнута. Текущая sota - это gpt5.4 pro

не, arXiv, правда, старенький. да и прайс какой-то невменяемый, если бы не он, то точно потестил это поколение. про текущую sota догадываемся)

Очень не хватает в лидерборде обычной gpt5.4 thinking, ибо прошка дорогая и медлительная

да, надо будет добавить

Зарегистрируйтесь на Хабре, чтобы оставить комментарий