Попробую пояснить проще. Вы скинули ссылку, где вы просите ChatGPT сгенерировать факты из памяти (найти конкретное дело). Но LLM - это не база данных, она так не работает. Ее веса хранят не точные копии текстов, а вероятностные связи между концепциями (как любят писать инженеры антропика, "сжатые паттерны знаний"). Когда вы просите ее извлечь точный идентификатор (номер дела или дату), она пытается собрать его по токенам из распределения вероятностей, что неизбежно ведет к галлюцинациям без использования жесткого RAG-поиска.
Попросите ее: "Объясни, как Пленум ВС РФ №25 трактует недобросовестное поведение при совершении сделки, и приведи логику применения статьи 10 ГК РФ". Вы увидите, что саму правовую концепцию (ту самую романо-германскую догматику) топовые модели понимают превосходно. И именно это концептуальное понимание права позволяет им находить дыры в загруженных судебных актах.
Об этом и эксперимент - на вход LLM получила тексты решений нижестоящих судов в контекст и попыталась сделать прогноз, найти уязвимые места и т.п. Это задача на reasoning, а не на information retrieval.
Согласен с вами, для прецедентного права (Common Law) RAG с огромной базой кейсов вроде Harvey - это must-have. Иначе модель просто не найдет тот самый прецедент "из 1998 года", на котором строится позиция.
У нас же романо-германская система, все крутится вокруг кодифицированных законов, постановлений пленумов Президиума ВС РФ, правовых позиций ВС РФ - и все это общие LLM как раз "выучили". Эксперимент свидетельствует, что современные топовые "общие модели" вполне себе ориентируются в нашем праве out of the box. Если дать им контекст (судебные акты нижестоящих инстанций по конкретному делу), они прекрасно находят правовые аргументы.
Это уже тянет на архитектурный манифест для Legal AI! :)
"Пытаться опровергнуть" - это моя любимая боль сейчас. Пока модели неохотно критикуют свой же первый вывод. И даже критика других LLM иногда не может их сбить.
Из заметок на полях. Мы до конца, насколько понимаю, не знаем, что такое LLM "прочитала" (как эти токены улеглись в веса или что там за mapping the mind, если пользоватся терминологией антропика). Впрочем, этот же применимо и к "живым" юристам. В каком смысле они "прочитали", "поняли"? Или это все "медленные LLM". )) Хайдеггер и тот сомневался думаем ли мы в настоящем смысле... Так что проблема "черного ящика" тут общая — и "для кремния, и для белка".
и действительно, "контур доверия" достаточно сложно моделировать. пока видится три слоя: 1) кликабельные ссылки на источники, 2) слой консенсуса, одной модели верить точно нельзя, трем - с осторожностью (долго прикручивал в "неШемяке" этот перекрестный пайплайн), 3) протокол рассуждений, о котором вы пишите, правда ученые, которые погружены в тему (проф. Оселедец и др) уверяют - то, что модель выдает в качестве chain of thoughts - это пост-рационализация (модель сначала "решила", а потом придумала красивое объяснение). Но даже такая "карта мыслей" лучше черного ящика.
и да, и нет. во-первых, китайские комрады посчитали разницу, за что им гран мерси. во-вторых, тут и чуть потоньше идея🙂, про Давида и Голиафа: маленькая доменная модель бьет несоизмеримо больших дядей ровно в тех задачах, где нельзя "красиво написать", нужно строго извлечь/сослаться/посчитать
Как solution architect, полностью поддерживаю тезис об энтропии контекста: при передаче задачи по цепочке изначальная идея всегда размывается. Cоло-фаундер + клодкоды/курсоры/итп. - это даже не будущее, а настоящее. Cам же в этом убедился, когда поднимал своего "неШемяку!" (neshemyaka.ru) в режиме "один архитектор + ии" (писал об этом на хабре): чистоту vision сохранить удалось.
Добавлю, только, что есть очевидный плюс наличия опыта разработки. Сохранение контроля над кодом и соблюдение паттернов. Иначе, как кажется, легаси появляется с первой строчки ии-кода.
первая инстанция - самая интересная, там как раз много человеческого. ras.arbitr.ru - парсить сложновато, но можно. впрочем, видел у парсинг-компаний их базу в продаже, но пока не приценивался
Конечно, человеческое всегда сложно формализуемо, и больших надежд на нейронки тут нет. Впрочем, как и на людей)) Но в планах - копнуть и в этом направлении. Сейчас, вечерами, ставлю небольшие эксперименты в части «нейро-профиля» конкретных судей на основе решений. При подмешивании этого в контекст запросов (эмбединг, раги, промпт - все как обычно) интересные штуки выясняются.
можете прочитать на закон.ру заметку Анатолия Семенова - https://zakon.ru/blog/2026/3/11/sudebnye_investicii_privlekayut_opytnyh_yuristov_k_zanyatiyam_sber-fitnesom и про вккс
последующие события, действительно, завораживают)), впрочем, как и некоторые предшествующие
не, arXiv, правда, старенький. да и прайс какой-то невменяемый, если бы не он, то точно потестил это поколение. про текущую sota догадываемся)
да, надо будет добавить
ага, самый правильный способ! мы даже пошли немного дальше, для одной и той же задачи на продакшене используем консенсус трех топов из рейтинга 🙂
Раскусили! 😀
Попробую пояснить проще. Вы скинули ссылку, где вы просите ChatGPT сгенерировать факты из памяти (найти конкретное дело). Но LLM - это не база данных, она так не работает. Ее веса хранят не точные копии текстов, а вероятностные связи между концепциями (как любят писать инженеры антропика, "сжатые паттерны знаний"). Когда вы просите ее извлечь точный идентификатор (номер дела или дату), она пытается собрать его по токенам из распределения вероятностей, что неизбежно ведет к галлюцинациям без использования жесткого RAG-поиска.
Попросите ее: "Объясни, как Пленум ВС РФ №25 трактует недобросовестное поведение при совершении сделки, и приведи логику применения статьи 10 ГК РФ". Вы увидите, что саму правовую концепцию (ту самую романо-германскую догматику) топовые модели понимают превосходно. И именно это концептуальное понимание права позволяет им находить дыры в загруженных судебных актах.
Об этом и эксперимент - на вход LLM получила тексты решений нижестоящих судов в контекст и попыталась сделать прогноз, найти уязвимые места и т.п. Это задача на reasoning, а не на information retrieval.
как кажется, не очень релевантно))
в этой части как раз думаю, добрались. достаточно много (десятки?) доступных баз - sudact.ru и проч.
Согласен с вами, для прецедентного права (Common Law) RAG с огромной базой кейсов вроде Harvey - это must-have. Иначе модель просто не найдет тот самый прецедент "из 1998 года", на котором строится позиция.
У нас же романо-германская система, все крутится вокруг кодифицированных законов, постановлений пленумов Президиума ВС РФ, правовых позиций ВС РФ - и все это общие LLM как раз "выучили". Эксперимент свидетельствует, что современные топовые "общие модели" вполне себе ориентируются в нашем праве out of the box. Если дать им контекст (судебные акты нижестоящих инстанций по конкретному делу), они прекрасно находят правовые аргументы.
ага! спасибо за критику, самому не нравилось, а тут как раз "разделение" досмотрел - как раз по теме обзора)
Это уже тянет на архитектурный манифест для Legal AI! :)
"Пытаться опровергнуть" - это моя любимая боль сейчас. Пока модели неохотно критикуют свой же первый вывод. И даже критика других LLM иногда не может их сбить.
Из заметок на полях. Мы до конца, насколько понимаю, не знаем, что такое LLM "прочитала" (как эти токены улеглись в веса или что там за mapping the mind, если пользоватся терминологией антропика). Впрочем, этот же применимо и к "живым" юристам. В каком смысле они "прочитали", "поняли"? Или это все "медленные LLM". )) Хайдеггер и тот сомневался думаем ли мы в настоящем смысле... Так что проблема "черного ящика" тут общая — и "для кремния, и для белка".
и действительно, "контур доверия" достаточно сложно моделировать. пока видится три слоя: 1) кликабельные ссылки на источники, 2) слой консенсуса, одной модели верить точно нельзя, трем - с осторожностью (долго прикручивал в "неШемяке" этот перекрестный пайплайн), 3) протокол рассуждений, о котором вы пишите, правда ученые, которые погружены в тему (проф. Оселедец и др) уверяют - то, что модель выдает в качестве chain of thoughts - это пост-рационализация (модель сначала "решила", а потом придумала красивое объяснение). Но даже такая "карта мыслей" лучше черного ящика.
точно!
и да, и нет. во-первых, китайские комрады посчитали разницу, за что им гран мерси. во-вторых, тут и чуть потоньше идея🙂, про Давида и Голиафа: маленькая доменная модель бьет несоизмеримо больших дядей ровно в тех задачах, где нельзя "красиво написать", нужно строго извлечь/сослаться/посчитать
Как solution architect, полностью поддерживаю тезис об энтропии контекста: при передаче задачи по цепочке изначальная идея всегда размывается. Cоло-фаундер + клодкоды/курсоры/итп. - это даже не будущее, а настоящее. Cам же в этом убедился, когда поднимал своего "неШемяку!" (neshemyaka.ru) в режиме "один архитектор + ии" (писал об этом на хабре): чистоту vision сохранить удалось.
Добавлю, только, что есть очевидный плюс наличия опыта разработки. Сохранение контроля над кодом и соблюдение паттернов. Иначе, как кажется, легаси появляется с первой строчки ии-кода.
интересный опыт)
ага, постараюсь, но хочется как-то оформить поосновательнее)
первая инстанция - самая интересная, там как раз много человеческого. ras.arbitr.ru - парсить сложновато, но можно. впрочем, видел у парсинг-компаний их базу в продаже, но пока не приценивался
Конечно, человеческое всегда сложно формализуемо, и больших надежд на нейронки тут нет. Впрочем, как и на людей)) Но в планах - копнуть и в этом направлении. Сейчас, вечерами, ставлю небольшие эксперименты в части «нейро-профиля» конкретных судей на основе решений. При подмешивании этого в контекст запросов (эмбединг, раги, промпт - все как обычно) интересные штуки выясняются.
эх, что же делать)))