Ekaterina-ya Nov 7 2025 at 13:59

Rise of RAG: от плоских векторов к темпоральным графам в юридическом домене

Medium

11 min

14K

Data Engineering * Artificial Intelligence

Review

+22

Comments 17

aytugan Nov 7 2025 at 17:32

Я не юрист, но чувствую что это прям то что нужно для ведения Change Management и для выяснения причин (root cause analythis) в сложных системах с множеством изменений.

Ekaterina-ya Nov 9 2025 at 22:24

Здравствуйте! Спасибо за ваше внимание к моему материалу :) согласна, что юридическое знание хоть и с особенностями, но на высокоабстрактном уровне не уникально, и эти методы могут работать и в других доменах. Из самого близкого — сложная не юридическая регуляторика (по типу стандартов GMP) или техническая документация. Из близкого по духу приходят в голову богословские тексты :)

inkelyad Nov 8 2025 at 01:18

Structure-Aware Temporal Graph RAG (далее — SAT-Graph)

Юристы изобрели Version Control...

Предложение - перегнать всю эту историю документов в Git. Возможно, LLM-ы уже умеют со всем этим работать, обучившись на программах.

Со отслеживанием взаимосвязей - так же. Перевести все тексты документов в формально-логический язык, максимально близкий к языкам программирования по семантическому поведению (ну т.е. ссылка на что-то - это вызов функции или что-то похожее) и посмотреть, как с LLM-ы справятся не прямо с сырыми текстами, а вот с такой конверсией.

CraftCoderr Nov 9 2025 at 21:33

Может и можно было перенести все в Гит, если бы все эти документы были достаточно структурированы. На деле же базовая версия закона выглядит как один связный документ, а вот дальнейшие изменения уже формулируются, например, так:

п. 1 утратил силу
В п. 3 заменить слова "раз два три" словами "три четыре пять", дополнить абзацем "шесть сем восемь и девять тоже".

Не знаю решена ли проблема построения текущей версии документа из базовой версии и всех ее изменяющих документов в автоматическом режиме, но в автоматизированном видимо решена в системах типа Консультант плюс.

Мне видится польза от применения LLM во все большей автоматизации решения этой проблемы вплоть до полностью автоматического.

inkelyad Nov 10 2025 at 10:37

На деле же базовая версия закона выглядит как один связный документ, а вот дальнейшие изменения уже формулируются, например, так

Вот именно поэтому и надо перенести в Git. В виде версий со внесёнными изменениями. А все эти "В п. 3 заменить слова" размещать в описании коммита.

Мне видится польза от применения LLM во все большей автоматизации решения этой проблемы вплоть до полностью автоматического.

Что немного дурдом. У программистов решение по сравнению и построению графов изменений сделано давным давно. И работает чисто алгоритмически, без всяких интеллектов. Какая религия запрещает придумать формальный синтаксис и его использовать, а не писать diff-ы словами?

Да даже и без формального - можно каждый раз просто утверждать весь текст целиком, без этих 'diff-ов' а при публикации подсвечивать изменения.

Ekaterina-ya Nov 9 2025 at 22:39

Ну юристы действительно додумались до version control :) как CraftCoderr отметил, справочно-правовые системы отлично умеют сравнивать разные версии, подсвечивая новое и удаленное. С них могла бы начаться какая-то вменяемая работа по перегону нормативного массива в понятные машинам формы. Но есть важные нюансы, в первую очередь организационные, о которых сразу начинаешь думать, когда видишь предложение «перевести всю эту историю»: 1) типов юридических текстов очень много, это не только кодексы и законы. И они абсолютно не унифицированы, и нет никаких общих правил да и даже best practices их ведения и исправления. Даже на уровне федерального законодательства. Если вы думаете о том, что в каждом нормативном акте реально есть логика сопоставимая с синтаксисом языков программирования — увы :) ; 2) есть локально-корпоративный уровень, компаниям хочется собирать документацию в RAGи, но у подавляющего большинства в ней бардак, даже если ее пытаются как-то системно хранить; 3) на то, чтобы заниматься этой работой хоть сколько-нибудь централизованно и по единой методике нужны нечеловеческие организационные усилия и политическая воля (это я и про «общие» нормативные акты, и про уровень отдельных компаний. Мысли о региональном нормативном уровне, особенно каким-нибудь правилам землепользования и застройки вводят в экзистенциальный кризис).

Справедливости ради скажу, что это применимо и к вашей идее, и к этому самому SAT-Graph RAG. Бразильцев вот только на Конституцию пока хватило (а она структурно вообще не очень сложная и, как правило, не претерпевает регулярных изменений).

inkelyad Nov 10 2025 at 10:43

Ну юристы действительно додумались до version control :)

Нет. Не додумались. Или не хотят использовать. Потому что берем (что тут рядом пробегало). Там же ужас

в подпункте «б» слова «в подпункте «а» настоящего пункта» заменить словами «в подпунктах «а» и «в» настоящего пункта»;

Понять, какой итоговый текст будет и где - это и естественному интеллекту cложно.

Сравним, например, что будет, если пользоваться нормальными инструментами.

Сразу видно что менялось, где, как было до, как стало после. Если использоваться инструментами Code Review - еще и правки можно буквально построчно обсуждать. Видно кто какую правку внес и так далее.

Если вы думаете о том, что в каждом нормативном акте реально есть логика сопоставимая с синтаксисом языков программирования — увы :)

Да. Нет. Но частично применимо. И вот ее надо вычленить (вот тут LLM-ы в помощь), оформить более-менее формальном синтаксисе и в таком виде использовать. А не пытаться сразу по сырым текстам работать.

Вообще, это моя давняя любимая мозоль - юристам уже лет... много пора перестать притворяться, что они на человеческом языке пишут и изобрести формализацию.

А то это выглядит как написание формул словами, как делали до внедрения математической нотации. Только усложняет все.

UFO landed and left these words here

Ekaterina-ya Nov 9 2025 at 22:45

Спасибо за добрые слова! А вы в каком домене внедряете?

Я не смотрела. Скажу честно, до вашего комментария я думала, что файнтьюнят только опенсорсные модели (а у меня бот на gemini api работает) :) сейчас просветилась, что это необязательно так. Буду знать! Но вообще для той цели и задач, которые ставятся боту, gemini 2.5 pro справляется великолепно. И нужен боту именно RAG, так как его ценность для пользователей именно в том, чтобы он подыскивал подходящую практику регулятора.

UFO landed and left these words here

Ekaterina-ya Nov 10 2025 at 10:58

Очень интересная задача! И кажется к ней действительно хорошо подходит rag, особенно если документация хорошо структурирована. Я для своего канала писала еще о таком методе, такая дешево-сердитая альтернатива иерархическим системам.

Armless Nov 9 2025 at 22:45

Спасибо за интересный пост!

ilia_kuh Nov 9 2025 at 22:46

Спасибо за статью🙏 очень интересно и познавательно🔥

Вижу, что токены вы экономите, но если важнее качество, то можно рассмотреть AdvancedRAG.

Может ML специалисты меня заклюют, но своё мнение высказал)

jakobz Nov 10 2025 at 20:46

А как юристы это всё до LLM искали и обрабатывали? Я тут смотрю на RAG-подход (пытаться найти сразу всё нужное по тексту), и агентный (дать инструменты поиска и анализа через MCP - и пусть сама ищет). И во многих случаях второе работает лучше, хоть и жрет больше токенов.

Т.е. может лучше давать ей поиск, инструмент чтобы доставать историю с дельтами, ходить по ссылкам, доставать выжимки документов? Ну т.е. API от того же UI юридической какой-то БД, и пусть оно само ковыряется?

В Cursor том же именно так делают, а они вроде фишку секут.

Ekaterina-ya Nov 10 2025 at 21:47

всегда до этого юристы пользовались и пользуются сейчас справочно-правовыми системами (гарант, консультант+) и собираемыми по крупицам собственными знаниями по интересующей их сфере (отслеживаешь изменения, новости, мониторишь сайты проектов нормативных актов и регуляторов, ходишь на конференции и курсы и т.п.). в основном обычный поиск по ключевым словам / фильтрам + гугление, подписки на новости. обработка -- руками, мозгами, младшими юристами и стажерами)) у юр.функций крупных компаний есть специальные люди, занимающиеся только мониторингом и аналитикой. по поиску судебной практики сложились определенные техники.

но нужно сказать, что ЛЛМ жизнь не упростили в этом плане, напротив даже, отвратили многих моих коллег: "да она мне придумала суд.практику и постановление правительства!" (been there done that года полтора назад). учиться правильно промптить и знать о возможностях КАК МИНИМУМ включить поиск в интернете хотят далекооо не все.

поисковые агенты в юридических задач принесут всякой ерунды с сайтов типа 9111 или каких-нибудь сео-статей юристов, разводящих бабушек на договоры на пересмотр пенсии. наше знание не в Интернете лежит преимущественно. хотя коллеги, пробовавшие самый дорогой тариф чат жпт говорят, что тот справляется с поиском все лучше и лучше. кто-то осваивает браузер комет активно для таких дел -- но пул задач по-прежнему невелик.

jakobz Nov 10 2025 at 22:12

Так я и предлагаю не к интернету прикручивать, а к тому же Консультанту. Дать ей тот же API для поиска, и пусть ищет себе по ключевым, векторным, или историю изменений смотрит.

Мысль тут в том, что вместо того, чтобы делать убер-поиск по векторам, дать те же инструменты что человеку. Оно нормально этим умеет пользоваться. И что удобно человеку - ей тоже норм.

Я, в целом, думаю что всем, кто делает LLM-based продукты, надо присмотреться к Cursor, и как им пользуются. Там же типа «собери инфу про то-то, сложи в файлик», «теперь вот эти файлики посмотри и сделай то-то», «теперь проанализируй что мы делали - и сделай себе инструкцию на будущее». Т.е. там нет попытки сделать магию - чтобы один промпт пишешь и оно само. Там дают инструмент, чтобы вести ее по шагам, и каждый шаг контроллировать.

Мне думается, что с LLM только этот путь более-менее и работает - когда ты командуешь, разбиваешь на подзадачи, и проверяешь каждый шаг. Да, он требует научиться этим пользоваться. Но, видимо, придется всем учиться.

Ekaterina-ya Nov 11 2025 at 21:42

В К+ не дают api, в рынок так точно, и даже не в рынок, а по прямым контактам, говорят, что цена заградительная. Они свои продукты двигать хотят, им это невыгодно) хотя коллеги пытаются заряжать браузер Comet на агентский поиск, но качеством не очень довольны + долго.

Вообще есть мнение, что агенты убьют RAG в зародыше. Но я думаю, что юридическое знание довольно специфическое, чтобы им пользоваться, действительно нужны фундаментальные знания и мышление, которые закладывают юристам в вузах. Там особая логика, на которую еще накладывается практика, иногда регион-специфичная, иногда надо принимать во внимание чуть ли не вебинары, которые регулятор где-то проводит, иногда надо анализировать и предстоящие изменения. Промптить на такое агента... можно, но сложно. Будто даже проще создать библиотеки RAG-баз, и делать грамотные агентские системы, которые будут по ним бегать.