162 способа поймать LLM на юридической ерунде: разбор LegalBench / Хабр

Одно из лучших исследований этого года в области AI Legal Tech - Neel Guha, Julian Nyarko, Daniel E. и другие "LegalBench: совместно разработанный бенчмарк для оценки юридического рассуждения больших языковых моделей", 2023 (“LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large Language Models”) где юристы и ML‑исследователи совместно придумали, как превратить вопрос “а понимает ли LLM право?” в большой набор из 162 аккуратно размеченных задач. Как кажется, эта работа превращает разговоры “а давайте спросим ChatGPT про договор” в измеримую инженерную задачу с нормальными датасетами, метриками и baseline‑ами.

LegalBench в ней выступает как первый по‑настоящему большой, осмысленный и юристами‑одобренный бенчмарк для проверки, умеют ли LLM рассуждать по‑юридически, а не просто “угадывать следующую букву закона”.

Авторы отвечают на простой вопрос: какие типы юридического reasoning реально умеют большие языковые модели, а какие — пока нет. Для этого они собирают LegalBench — набор из 162 задач, которые покрывают шесть типов правового рассуждения: issue‑spotting, rule‑recall, rule‑application, rule‑conclusion, interpretation и rhetorical‑understanding.

Каждая задача — это не абстрактный NLP‑трик, а сценарий, который либо имеет практический смысл (например, классифицировать пост с r/legaladvice по области права, разобрать M&A‑договор, распознать юридически значимый риск), либо отражает знакомые юристам когнитивные операции. Задачи вручную придуманы и/или переработаны практикующими юристами, академическими правоведами и legal‑информатиками, которых авторы массово призвали через открытый call for tasks.

Дальше на этом всем прогоняют 20 коммерческих и опенсорсных моделей из 11 семейств (GPT‑4, GPT‑3.5, Claude‑1, Flan‑T5, LLaMA‑подобные и прочие), чтобы посмотреть, где LLM уже “почти юрист”, а где всё ещё “студент‑первокурсник, который читал только конспект к экзамену”. Параллельно авторы аккуратно вшивают LegalBench в юристскую теорию — связывают типы задач с фреймворками правового рассуждения вроде IRAC, чтобы LLM‑разработчики и юристы наконец говорили на одном языке, а не на разных диалектах “prompts vs судебная доктрина”.

Как устроен LegalBench

Внутри LegalBench все задачи имеют минимум 50 примеров, в среднем около 563, то есть это уже не игрушка на десяток анекдотов, а вполне серьёзный датасет уровня GLUE/BigBench/RAFT. По формату есть binary classification, multi‑class/multi‑label, multiple choice и немного open‑generation, чтобы моделям тоже иногда приходилось что‑то писать, а не только ставить галочки.

По типам reasoning набор выглядит так: rule‑recall, issue‑spotting, rule‑application, rule‑conclusion, interpretation и rhetorical‑understanding, то есть львиная доля — это интерпретация сложных текстов.

По областям права доминируют контракты и корпоративное право: десятки задач по контрактам и корпоративному праву, плюс гражданский процесс, доказательства и прочие радости гражданских юристов.

По источникам текста тоже довольно пёстро: plain English, судебные решения, merger agreements, контракты, статуты и прочие жанры юрпрозы. Авторы специально подчёркивают, что юридический язык сильно гетерогенен и это дополнительный вызов для LLM — одна и та же модель может вести себя по‑разному в зависимости от стиля и структуры текста, а LegalBench позволяет системно это изучать.

Немного внутренней кухни

Проект стартовал как коллаборативный: авторы в 2022 году выкатили призыв “приносите нам свои любимые юридические задачки” и получили задания от людей с очень разным бэкграундом — от практиков до исследователей в computational law.
Каждую задачу проверяли на юридическую корректность и адекватность формулировки, а заодно снабжали документацией: что за право, в чём практический смысл, как строилась выборка, на что именно нацелено задание.

Кроме датасета, репозиторий LegalBench содержит базовый prompt для каждой задачи — описание, инструкции и несколько демонстрационных примеров, чтобы любые дальнейшие сравнения моделей были более‑менее реплицируемыми.
Идея в том, что дальше сообщество сможет предлагать улучшенные промпты, а авторы будут их подтягивать в общий репозиторий, превращая LegalBench в живую инфраструктуру, а не статичную PDF‑ку.

Что показали эксперименты

В экспериментах авторы сравнивают 20 моделей, включая крупные закрытые (GPT‑4, GPT‑3.5, Claude‑1) и разные open‑source‑семейства в вариантах “маленькая/средняя/большая”. Оценка проводится в few‑shot‑режиме по стандартным метрикам точности, а для некоторых задач с выводом/объяснением ещё и через ручную разметку корректности и глубины рассуждения по чётким инструкциям.

Результат предсказуем, но полезно кристаллизова��: GPT‑4 почти везде уверенно лидирует, особенно в сложных видах reasoning (rule‑application, rule‑conclusion, сложная интерпретация), хотя и он далёк от “безошибочного суперуниверсального юриста”. Лучшие открытые модели типа крупных Flan‑T5 иногда подбираются и даже обгоняют GPT‑3.5 или Claude‑1 на отдельных подзадачах, но общее отставание по “тяжёлым” видам reasoning заметно.

Авторы также показывают, что разные семейства моделей демонстрируют “характер” — кто‑то относительно силён в rule‑recall (вспомнить норму/цитату), кто‑то — в issue‑spotting, а кто‑то неожиданно неплох в rhetorical‑analysis (например, определять тон и функции аргументации). И ещё важнее то, что рост числа параметров в рамках одного семейства обычно помогает, но не отменяет различий в обучении: 13B‑модель одного типа может вести себя хуже, чем 7B‑модель другого, если её кормили менее уместными для права данными.

Сильные стороны работы

Первое и главное — LegalBench задаёт нормальный инженерный стандарт для разговоров о “юридическом интеллекте” LLM. Когда возникает очередной маркетинговый лозунг “наша модель лучше думает как юрист”, статья предлагает простой ответ: “отлично, вот 162 задачки, давайте посмотрим цифры”.

Второе — очень удачное связывание технического и юридического языков: авторы явно старались, чтобы каждый тип задачи имел отражение в знакомых юристам фреймворках (IRAC и др.), а не висел в воздухе как “ещё один текстовый классификатор”. Это снижает барьер входа для юристов: можно обсуждать не “model accuracy на task‑42”, а “как модель справляется с issue‑spotting в consumer law или с применением теста к фактам”.

Третье — хороший баланс широты и глубины: 162 задачи — уже достаточно разнообразный зоопарк, но за счёт тщательной документации по каждой задаче LegalBench не превращается в “чёрный ящик” из CSV‑файлов.
Наконец, сама экспериментальная часть аккуратно показывает ландшафт: где закрытые модели пока объективно впереди, где open‑source догоняет, и какие типы задач наиболее чувствительны к архитектуре и обучению.

Слабые места и ограничения

Авторы честно выписывают ограничения, но они всё равно критичны, особенно если смотреть на мир не из Кремниевой долины. Во‑первых, весь LegalBench сейчас на английском и с перекосом в сторону американского контрактного и корпоративного права, поэтому перенос выводов на другие правовые системы (тем более на континентальное или российское право) требует большой осторожности.

Во‑вторых, первая версия ограничена длиной контекста: когда проект стартовал, у большинства моделей было несколько страниц контекст‑окна, поэтому почти все задачи — это относительно короткие фрагменты, а не “настоящие” многотомные судебные дела или длинные договоры. Авторы прямо пишут, что хотели бы добавить длинные документы в следующую версию, когда инфраструктура и модели подтянутся, но пока LegalBench не очень говорит нам, как модель поведёт себя на деле с сотнями страниц приложений.

В‑третьих, задачи специально подобраны так, чтобы иметь объективно правильный ответ — то есть это не ситуации, где “разумные юристы могут не согласиться”. Это хорошо для метрик, но плохо отражает реальную жизнь, где половина удовольствия в том, что закон двусмысленный, факты грязные, а судья сегодня не в духе.

В‑четвёртых, LegalBench измеряет элементы IRAC как бы по отдельности — “найди issue”, “применить правило” и т.п. При этом настоящая юридическая работа — это длинный multi‑hop‑процесс, где все эти шаги переплетены и обрабатывают один и тот же набор фактов, чего в текущей версии бенчмарка почти нет.

Чем это полезно разработчику LegalTech

Если пилится свой юридический ассистент, статья даёт хороший чек‑лист. Во‑первых, можно не гадать, “умеет ли модель право”, а просто прогнать выбранную LLM по релевантной подвыборке LegalBench (contract‑related, issue‑spotting, interpretation) и увидеть, в чём она сильна, а в чём нужно допиливать RAG, фильтры, валидацию и подсветку рисков.

Во‑вторых, сама типология reasoning даёт структуру для дизайна продукта: можно отдельно думать, как инструмент помогает юристу с issue‑spotting, с rule‑recall (быстро найти применимую норму), с application (сопоставить факты и тест) и с интерпретацией формулировок договора. Это лучше, чем пытаться построить “волшебный чат‑бот‑юрист” и надеяться, что он сам разберётся, где тут issue, а где conclusion.

В‑третьих, ограничения бенчмарка прямо подталкивают к новым инженерным решениям: нужны задачи на длинные документы — значит, пригодятся chunking‑стратегии, иерархические модели и специальные pipeline‑ы для дел в несколько сотен страниц.
Нужны другие юрисдикции — придётся думать о сборе локальных корпусов, разметке и адаптации LegalBench‑подобных задач под российское право, язык и структуру источников (кодексы, судебные акты, письма ведомств).

Что можно было бы улучшить

С практической точки зрения не хватает более систематического разбора ошибок моделей: хотелось бы больше case‑studies, где показано, как именно GPT‑4 или open‑source‑модель ломаются на конкретной задаче и что это значит для проектирования систем. Сейчас работа даёт в основном агрегированные метрики и только частично залезает внутрь конкретных промптов и ответов.

Кроме того, полезно было бы иметь “сквозные” сценарии, где модель должна пройти по полной цепочке IRAC по одному кейсу, а не решать разрозненные микро‑задачи. Авторы сами признают эту дыру и говорят, что нынешний LegalBench — стартовая точка, а не финальное слово в измерении юридического интеллекта LLM.

Наконец, для мира за пределами common law напрашивается расширение: кодекс‑ориентированные системы, иерархические структуры норм, подзаконные акты, письма регуляторов — всё это пока в явном виде почти не покрыто.
Но архитектура проекта как раз позволяет сообществу донести свои боли и добавить туда гражданско‑правовые и публично‑правовые изыски других стран.

Итог для читателя Хабра

LegalBench — это та редкая история, когда юридическая и ML‑части в одном проекте сделаны аккуратно и уважительно друг к другу, без “чудо‑ботов” и волшебных маркетинговых обещаний. Статья даёт разработчику LegalTech понятный инструмент для измерения прогресса, юристу — язык для разговора с ML‑командой, а исследователю — огромную площадку для экспериментов с prompting, дообучением и архитектурами.

Для практики вроде “делаем ассистента по договорам/судам” это хорошая отправная точка: можно примерно понять, чего ожидать от моделей из коробки и где придётся прикручивать доменные корпуса, проверки, онтологии и прочие инженерные костыли. А с учётом открытости и расширяемости LegalBench вполне может стать шаблоном для “RussianLegalBench”, который однажды заменит фразу “работает нормально” на графики, таблички и аккуратную боль по метрикам.