derunat 28 июн в 10:41

Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права

Простой

5 мин

722

Искусственный интеллектМашинное обучение *

Обзор

Этот пост для нашего тг-канала Pro AI написал мой коллега Александр Мигаль, специалист по компьютерной лингвистике и один из авторов RuTaR

Все привыкли к тому, что ChatGPT, DeepSeek, Llama и другие коммерческие LLM способны быстро и умеренно качественно генерировать текст практически любого стиля и содержания. Однако, потенциал использования языковых моделей давно не ограничивается лишь пресловутым копирайтингом и написанием курсовых за одну ночь. Современные модели‑трансформеры всё чаще демонстрируют эмерджентные способности, выражающиеся в их способности к сложному пошаговому рассуждению.

Само устройство этих «рассуждений» (англ. reasoning) забавно перекликается с гипотезой лингвистической относительности Сепира‑Уорфа. Её строгая версия предполагает, что человеческое мышление является формой «внутреннего монолога». Но если наш мозг оказался устроен несколько сложнее, чем думали Сепир и Уорф, то в случае с LLM всё буквально так — модель рассуждает, когда «говорит», т. е. генерирует текст.

На текущий момент мы уперлись в потолок развития LLM привычным путём. Данные для их обучения кончились ещё год назад, а продолжать наращивать и без того огромные вычислительные мощности попросту нет смысла. Поэтому самым перспективным направлением разработок в области ИИ выступает развитие того самого reasoning — умения модели рассуждать.

И хотя за последние полгода появилось множество систем, сделавших большой шаг в сторону продвинутого reasoning (например, DeepSeek R1, о1 от OpenAI), тестируются они всё так же — на математике, шахматных задачках и головоломках. А вот насколько хорошо они справляются с задачами в сфере права или, скажем, комплексного текстуального анализа никто не знает — в большинстве бенчмарков полностью игнорируется способность LLM рассуждать в плоскости гуманитарного знания.

Мы же считаем, что право, особенно налоговое, выступает идеальной средой для тестирования reasoning‑моделей. Оно достаточно формализовано, но в то же время изобилует всевозможными условиями и исключениями, позволяя проверить умение модели делать обоснованные логические выводы.

К тому же, потребность в автоматизации первичной аналитики за счет reasoning в правовой сфере является вполне реальной. Например, именно эту задачу мы решали совместно с компанией «Норникель», пытаясь сконструировать умный поиск, обладающий способностью к извлечению смысла из юридических документов.

И тут встаёт вопрос: а на чём тестировать такого рода систему? Для английского языка есть LawBench, CaseHOLD, пусть даже CourtListener. А на русском — почти ничего. Ни качественных датасетов, ни бенчмарков.

Так и появился RuTaR — A Dataset in Russian for Reasoning about Taxes, датасет на русском языке для оценки способностей LLM к рассуждению в юридической сфере.

В его основе — 199 обработанных писем Минфина и ФНС России, каждое из которых содержит в себе:

Некий юридический вопрос;
Ответ эксперта;
Суммаризацию ответа как «да» или «нет»;
Юридические источники, необходимые для обоснования ответа;

Вопрос

Бинарный ответ

Источники

Можно ли применять электронные доверенности уполномоченным представителям налогоплательщика-организации?

Да

1. п. 3 ст. 29 НК РФ

2. раздел 10 ГК РФ

3. ст. 188 ГК РФ

4. п. 5 ст. 80 НК РФ

5. п. 5.1 ст. 23 НК РФ

6. Приказ ФНС России от 30.04.2021 № ЕД-7–26/445@

К сожалению, оригинальные тексты писем не содержали в себе прямых вопросов, лишь общее название темы обращения (например, «Об отнесении задолженности к безнадежной в целях налога на прибыль»). Поэтому вопросы было решено сгенерировать с помощью сильной LLM, в роли которой выступила GPT-4o.

Вот как это было сделано:

Мы выгрузили письма из открытых источников;
Отобрали ответы, которые можно кратко представить как «да» или «нет» (отбор проводился с помощью GPT-4o) и присвоили им соответствующий бинарный тег;
Сгенерировали бинарные вопросы (также с помощью GPT-4o);
Валидировали результаты и провели ручную коррекцию получившихся синтетических вопросов;
Извлекли юридические ссылки с помощью специального скрипта;
??
PROFIT

Безусловно, у выбранного подхода бинарной классификации существует ряд значительных ограничений. Юридический язык крайне редко сводится к простому «да» или «нет». Ведь, как красноречиво заметил Томас Джефферсон,

«Профессия юриста состоит в том, чтобы все ставить под сомнение, ни с чем не соглашаться и без конца говорить».

Так и рекомендации экспертов в сфере налогов зачастую зависят от даты, региона, формы бизнеса и многих других факторов. Однако, выходя на подобный уровень абстракции мы делаем возможной столь важную для крупного датасета автоматическую оценку — пользуясь бинарным атрибутом «true_answer» можно довольно легко вычислить общую точность ответов системы. К тому же, отбор прошло лишь 199 писем из более чем 5000 — именно их мы сочли подходящими для такого рода упрощения.

Чтобы проверить полезность датасета, мы протестировали несколько моделей:

GPT-4o mini (через API OpenAI);
LLaMA 3.3–70B;
Mixtral 8×7B;

И использовали три подхода:

Simple — просто вопрос → ответ;
Base RAG — вопрос → поиск релевантных источников → ответ;
Perfect RAG — подсовываем модели “идеальный” контекст со всеми нужными ссылками;
Fine-tuned RAG — обучаем эмбеддинги (Е5) с помощью пар вопрос + правильный/неправильный ответ;

Каковы итоги?

Коротко: умение системы найти нужную статью не гарантирует, что она сделает правильный вывод.

Предсказуемо, включение RAG‑механизмов стабильно повышает качество работы моделей в задачах, требующих обращения к внешним источникам. Так, дообученная Fine‑tuned RAG улучшает качество извлечения документов — об этом свидетельствуют высокие значения метрик recall, например, recall@15 составил 72% против 49% у базовой версии. Тем не менее, итоговая точность ответов у Fine‑tuned RAG оказалась ниже, чем у Base RAG. Ещё неожиданнее то, что даже «идеальный» контекст в Perfect RAG не помогает GPT-4o mini превзойти результаты Base RAG.

Таким образом, хоть системы и извлекают нужные ссылки, они всё равно допускают критические ошибки в логике рассуждений. Это подтверждает необходимость развития навыков reasoning у моделей: важно не только то, какой retrieved context LLM получит на вход, но и то, как она его использует.

Наши планы:

Расширить датасет;
Доработать существующую бинарную классификацию;
Сделать возможной проверку не только итогов рассуждения модели, но и самих её рассуждений;
Протестировать специализированные reasoning-модели, которые отсутствовали в открытом доступе на момент начала исследования;

Итоговый датасет доступен на GitHub и распространяется по открытой лицензии.

📁 Датасет: https://github.com/rutar-anonymous/RuTaR

🧠 Статья: https://dialogue-conf.org/wp-content/uploads/2025/04/AlibekovAetal.075.pdf

💬 Вопросы, предложения, багрепорты, коллаборации — пишите в комментарии здесь или в личку Александру Мигалю.

Хабы:

Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права

Публикации

Ближайшие события