Ekaterina-ya8 янв в 15:01

Делай Bench: мой опыт слепого human-eval бенчмарка нейросетей для юристов

Средний

13 мин

8.5K

Искусственный интеллект

Кейс

Комментарии 3

dyadyaSerezha 8 янв в 16:08

Самый главный вопрос возник уже в самом начале: почему, ну почему в тест не добавили человека, одного или несколько спецов по тестируемым областям? Тогда было бы на порядок интереснее. А так... Ну показала модель оценку в 4.04. А сколько показал бы реальный юрист?? 😎

Ну и кроме того, насколько я знаю, есть много юристов, которые просто правильно оформляют или проверяют однотипные документы. Напрмер, заявления на кредит от юр. лиц. Кажется, что тут всё гораздо однозначнее и ИИ должно справляться лучше.

Ekaterina-ya 8 янв в 16:47

Да, эта идея пришла уже позже: для будущих бенчмарков привлекать живых юристов, которые пишут ответы, включать в выборку… и вообще никому не говорить, что есть ответ живого юриста)

Юристы, занимающиеся однотипными задачами, конечно же есть. До таких задач волна обязательно докатится (в больших юрдепах уже это переложено на младший персонал без профильного образования)

Petroleum_man 21 янв в 08:03

Я делаю бота, который отвечает на вопросы по одному документу. Длина документов около 100-200 страниц. Юристы подготовили правильные ответы на вопросы. Запускал gpt 5.2, чтобы она оценила качество ответов другой более простой модели, сравнивая их с ответами юристов. Вполне стабильные оценки выходят. Но оценки сильно зависят от промпта и критериев. Если их зафиксировать, то вполне можно сравнивать разные решения между собой

Зарегистрируйтесь на Хабре, чтобы оставить комментарий