LLM разобрали «дело Долиной»: предсказали аргументы, но статистика оказалась сильнее / Хабр

Кейс Dolina v. Lurie всколыхнул не только юридическое сообщество. Сейчас шум в медиа начал утихать и настало время спокойно препарировать это дело LLM-матрицами и тензорными вычислениями. 🙂

Спор этот совсем недавний, шансы на попадание судебных актов по делу в обучающую выборку до cutoff date даже последних версий топ-моделей - минимальны, определение же Верховного Суда России в веса моделей успеть точно не могло. Тем интереснее результат!

Спойлер: ИИ не подкачал, но итоговая оценка оказалась очень интересной и очень, как кажется, характерной для AI LegalTech.

Архитектура эксперимента

На вход моделям были поданы судебные акты первой инстанции, апелляции и кассации. Пайплайн использовался стандартный "нешемяковский": LLM-консенсус трех топовых моделей (Anthropic Claude Opus 4.6, Google Gemini 3 Pro и OpenAI GPT‑5.2) и стандартный промт про обжалование.

Результат оказался парадоксальным: нейросетки нашли правильные юридические зацепки для отмены решений (отфильтровали то, что сторона ответчицы выдавала в первых трех инстанциях), но итоговый прогноз успеха в Верховном Суде составил всего 7% (полный ИИ-прогноз доступен по ссылке: neshemyaka.ru/case/499).

Как так вышло?

Сначала очевидное. Определение ВС РФ на момент запроса не было известно ни одной модели. Иначе прогноз был бы банальным пересказом, а шансы на отмену судебных актов не оказались бы столь низкими. То есть нейросетки опирались исключительно на контекст решений нижестоящих судов и собственные представления о прекрасном.
Модели предсказали 5 из 7 аргументов, которые в реальности использовал Верховный Суд РФ для отмены.
ИИ постанализ результатов
Они четко подсветили проблему реституции, стандарт осмотрительности и ошибку в квалификации заблуждения. Однако два важных довода ИИ все-таки пропустили: "отказ истца от экспертизы как процессуальный капкан" и "высокий стандарт осознания последствий для дееспособного продавца".
Тут следует отметить, что оба этих пункта — не "книжные" нормы права, а следствие конкретных фактических обстоятельств. Вытащить их без полного доступа к материалам дела LLM, естественно, не смогла.
Gemini оказалась немного слабее и сдержаннее.
Самое интересное — при отличной декомпозиции правовых недостатков нейросети выдали всего 7% на победу? Назовем это проблемой «статус-кво против права» - здесь модели демонстрируют интересную логику рассуждений, прямо ссылаясь на статистику:

Claude: "Остается только кассационная жалоба в Верховный Суд РФ, где процент принятия к рассмотрению крайне низок — около 1–3% жалоб передаются для рассмотрения в судебном заседании".

OpenAI: "С учётом уже сформированной позиции трёх инстанций вероятность благоприятного исхода низкая".

Иными словами, модели видят юридические недостатки в логике решений (reasoning!). Но их итоговое предсказание строится на усвоенной судебной статистике. Если три инстанции "засилили" акты — значит веса "отказа" перебивают веса "юридической правоты".

К тому же, в базовом промпте моделям была недоступна сила общественного резонанса. Здесь можно было бы провести еще один, уже "нейросоциальный" эксперимент. Добавить в контекст описание шквала публикаций, метрики дискуссии на профильных форумах и медийный фон. Возможно, социальный фактор в "глазах" нейросеток смог бы пересилить статистический барьер. Но тогда бы пришлось бы рядом строить и другой сервис - нейросоциальный 🙂🙂🙂

P.S.

В "неШемяке!" зарелизил раздел "Публичные прогнозы судебных дел". Если пришлете в комментарии интересное дело для анализа — буду признателен. Главное условие — судебные акты должны быть свежими, опубликованным (лучше арбитраж) и, желательно, в стадии активного разбирательства (так интереснее тестировать предсказательную силу).