Комментарии 2
Самый главный вопрос возник уже в самом начале: почему, ну почему в тест не добавили человека, одного или несколько спецов по тестируемым областям? Тогда было бы на порядок интереснее. А так... Ну показала модель оценку в 4.04. А сколько показал бы реальный юрист?? 😎
Ну и кроме того, насколько я знаю, есть много юристов, которые просто правильно оформляют или проверяют однотипные документы. Напрмер, заявления на кредит от юр. лиц. Кажется, что тут всё гораздо однозначнее и ИИ должно справляться лучше.
Да, эта идея пришла уже позже: для будущих бенчмарков привлекать живых юристов, которые пишут ответы, включать в выборку… и вообще никому не говорить, что есть ответ живого юриста)
Юристы, занимающиеся однотипными задачами, конечно же есть. До таких задач волна обязательно докатится (в больших юрдепах уже это переложено на младший персонал без профильного образования)

Делай Bench: мой опыт слепого human-eval бенчмарка нейросетей для юристов