Pull to refresh
12
0
Игнат Постный @ipostny

Legal AI Developer

Send message
Вполне возможно, что вы вступили в «долину смерти». Так называется ситуация, когда оказывается, что первые клиенты не масштабируемая аудитория. В этой ситуации оказываются (наверное) все начинающие компании, не стоит приписывать то что вы в ней оказались аджайлу.

Боюсь, что Вы снова меня не поняли… Решение pullenti — достаточно известный в сфере русского NLP продукт, разработчиками которого мы, очевидно, не являемся (информация об этом есть по ссылке в предыдущем комментарии). Тем не менее мы плотно общались с его создателями и хорошо понимаем, как этот продукт создавался. Пример приведен специально с открытым исходным кодом и достаточно популярный, чтобы Вы смогли самостоятельно посмотреть "в глубину" и понять, к чему приводит отсутствие четкого видения продукта на старте в сфере LegalTech.


Как вам удается выживать в эпоху метамодерна?, если хотите.

Хорошо, спасибо.


Если Вас интересует более развернутая дискуссия, то полагаю, что Вам (как эксперту по данному вопросу) не составит большого труда описать актуальную проблематику и поделиться своими умозаключениями.

Вот это уже интересно. Расскажите, как ваш опыт ведет к такому выводу?

В качестве иллюстрации можно привести проект pullenti. Эта система показывает достаточно неплохие результаты при работе с некоторыми задачами NER. При этом сам проект развивался итеративно, под каждого нового заказчика. Такой подход в итоге привел к тому, что сейчас систему очень сложно использовать для решения новых задач (по сути нужен рефакторинг с нуля). Отдельно отмечу, что это не критика самого продукта (в основе системы лежит фундаментальная и детально проработанная лингвистика), а именно итеративного подхода к разработке IT-продуктов в области LegalTech.


Мне интересно, как именно вы на этот вопрос отвечаете. Потому как те имеющиеся источники, которые я пока что находил не учитывают последние научные открытия в области изучения человека.
Как именно вы интегрируете для себя научные данные о человеке и юриспруденцию?

Боюсь, что из комментариев по-прежнему не понятна суть Вашего вопроса, а читать мысли наш продукт пока не научился:


  • В чем конкретно заключается вопрос? О какой из трактовок термина "применение правовых норм" мы говорим?
  • О каких конкретно "последних научных открытиях в области изучения человека" идет речь? Где, кем и когда они опубликованы?
  • В чем конкретно недостатки классического подхода к применению правовых норм?..

Согласитесь, что достаточно трудно отвечать на вопросы формата:


Я прочитал некоторые материалы про последние открытия, которые меняют общепринятое представление об X. Что Вы можете ответить на этот вопрос?


Если Вам действительно интересна эта тема и в ней видится некая интересная тема для дискуссии, предлагаю Вам написать более подробную развернутую отдельную статью, например на Хабре.

Большое спасибо за развернутые комментарии и интересные ссылки!
Мы внимательно ознакомились с материалами — всегда полезно посмотреть на проблему под иным углом.

1. Вы безусловно правы в том, что есть альтернативный, более фундаментальный подход трансформации юридической функции. Как Вы верно пишите в своей статье, такой подход требует принципиально нового подхода к работе с документами (по сути речь уже идет о работе не с документами, а об обмене данными).

На наш взгляд, такой подход в итоге станет доминирующим: принятие и исполнение законов, правил и регламентов будет происходить в цифровом формате. Однако с практической точки зрения, в ближайшем обозримом будущем такой подход реализовать не удастся по причине наличия целого ряда крайне трудноразрешимых проблем:
— сложившаяся за много сотен лет практика принятия и применения законов: это предельно консервативная система, которая лежит в основе государственного управления;
— наличие многочисленных противоречий как в самих законах и правилах, так и в правоприменительной практике;
— вопрос ответственности интеллектуальных систем за принимаемые решения и многие другие.

На одном из таких факторов — вопрос доверия участников системы, хотелось бы остановиться поподробнее. Продолжая аналогию с развитием технологии автопилота, неизбежным является вывод о том, что на определенном уровне развития наличие за рулем машины водителя-человека будет являться фактором, который во много раз будет снижать уровень безопасности как для самого водителя, так и для других участников движения.

Иными словами — участие человека в процессе принятия решений станет статистически и объективно неприемлемым.

Как решить аналогичную проблему в сфере Legal AI — пока не очень понятно. В частности, одно из фундаментальных прав — право каждого на судебную защиту, а также право на обжалование незаконных действий. Стоит ли лишать граждан этого права, если мы понимаем, что его реализация будет давать заведомо негативный результат (например, ущемлять права других участников гражданского оборота)?..

2. На наш взгляд, перспективным является подход, описанный Judea Pearl в книге The Book of Why: создаваемые системы концептуализации знаний должны уметь отвечать на 3 уровня вопросов:
— связаны ли события X и Y как-либо между собой?
— является ли событие X причиной события Y?
— произошло бы событие X, если бы не произошло событие Y?

3. Подход действительно представляется интересным, однако есть большой вопрос о возможности реализации идеи на практике. Юридическая деятельность — сложная многофакторная сфера, которая лишь частично описана в законах и правилах; многие вопросы решаются при помощи common sense. В частности, нигде формально не описан процесс «вытаскивания» из клиента всей информации, необходимой для написания искового заявления. Иными словами: нет даже событийной/объектной онтологии в юриспруденции, поэтому пока не имеет смысла заниматься построением мета-онтологий по извлечению, нахождению соответствующей информации.

Отдельно хотелось бы прокомментировать Ваш тезис из материалов по ссылке:

Проблема не решается использованием электронных документов, поскольку смысл текста в файле документа недоступен для цифровой модели деятельности. То есть, прежде всего, должна быть решена задача “понимания” цифровой моделью деятельности семантики документа. При этом очевидно, что речь не должна идти о прямом распознании содержания текста, написанного на естественном языке (скажем, с привлечением ML-технологий), поскольку результат такого “понимания” не может быть признан однозначным.


Вы правы в том, что существует практически бесконечное количество способов интерпретации текста на естественном языке. Однако есть 2 нюанса, которые существенно упрощают задачу:

1) в контексте Legal AI понимание текста носит не абстрактный, а предельно конкретный характер (например, когда нужно разрешить спор в суде по существу на основании представленным материалов), поэтому количество вариантов интерпретации текста, которые несут практическую ценность, достаточно ограничено;

2) если мы рассматриваем каждый документ в контексте других известных нам фактов, то отсутствие единообразной интерпретации текста не помешает решению практических задач (например, мы по-разному можем интерпретировать текст искового заявления в отношении договора поставки, однако, если в нашем распоряжении есть акт приема-передачи товара и соответствующее платежное поручение, то количество полезных интерпретаций текста опять-таки существенно сокращается).

Именно поэтому мы считаем, что, несмотря на существующие многочисленные трудности, ключом к созданию Legal AI является возможность понимания и интерпретации текстов на естественном языке в контексте предметной области.

Еще раз спасибо за развернутые комментарии и полезные материалы!
(этот тред — прямо как КПДВ, только в тексте)

Спасибо, очень верно подмечено! =)

Если ваше мнение об Agile основано на манифесте, то это искаженное представление. Разработка не имеет столь же хорошо разработанных теоретических обоснований, как и юриспруденция, и манифест — это просто текст, написанный простыми людьми. Разумеется, реальная практика применения аджайла отличается от того, о чем можно догадаться, изучая текст.

Мнение основано в том числе на опыте управления командой разработчиков и применении agile в разработке IT-проектов.


И на то есть основания. Если мне нужно сделать сайт, то каким бы сложным сайт ни был, это все равно простая работа, потому что задача разбивается на простые операции, с которыми любой человек может справиться.

Как верно подметил vassabi, действительно речь идет о классическом мышлении разработчика. Позиция хорошо понятна и часто оправдывает себя, но прежде чем сравнивать разработку сайта с юриспруденцией / Legal AI, я бы рекомендовал чуть больше узнать о предметной области.


А кем и к кому применяются правовые нормы? И что вообще означает «применить норму»?

Применение норм права — одно из фундаментальных понятий юриспруденции, теории государства и права. В открытом доступе достаточно много информации об этих базовых понятиях, например, здесь.

Это ложное представление. Аджайл не для быстрых побед, а для митигации рисков.

Мы, юристы, — довольно упрямые создания и любим вдумчиво читать первоисточник:


"Наивысшим приоритетом для нас является удовлетворение потребностей заказчика, благодаря регулярной и ранней поставке ценного программного обеспечения."


"Работающий продукт следует выпускать как можно чаще, с периодичностью от пары недель до пары месяцев."


Соглашусь, что минимизация рисков здесь действительно подразумевается, однако на практике такой подход к управлению рисками на каждой последующей итерации в сфере Legal AI порождает, по нашему мнению, гораздо более существенные риски и приводит к крайне печальным последствиям. На всякий случай еще раз сделаю акцент: мы не против Agile как метода разработки ПО, мы против того, чтобы этот метод применялся по аналогии к процессу создания продуктов в сфере Legal AI.


Я понимаю, что эти вещи гораздо приятнее делать и лучше оплачиваются, но для меня это очень простые операции. Я думаю, что в будущем люди будут просто регистрировать эти состояния на госуслугах и все документы будут подтягиваться автоматически.

Большое спасибо за комментарий! Именно такую позицию мы сотни и, наверное, уже тысячи раз встречали в общении с разработчиками / представителями IT. Более того, именно такая позиция отчасти и сподвигла нас к тому, чтобы написать этот цикл статей. Мы максимально подробно, на простом русском языке стремимся объяснить тем, кто имеет очень поверхностное представление о юриспруденции, что даже такая "очень простая операция", как проверка полномочий директора, никак не является таковой. Поэтому, чтобы не повторяться, рекомендую еще раз проанализировать наши примеры и графы из статьи.


Есть сложные вопросы, связанные с деконструкцией субъектности. Я сам еще не вполне разбираюсь в этой теме, но какие должны быть законы в свете новых открытий о человеке? Как применять те законы, что уже есть в свете тех же открытий?

К сожалению, не очень понятно, о чем в данном фрагменте конкретно идет речь. С точки зрения юриспруденции, есть веками зарекомендовавшаяся себя практика изменения правовых норм: критическая масса кейсов => новые законы и правила => новая правоприменительная практика.
Естественно, в реальной жизни этот цикл не всегда выполняется в силу тех или иных причин.

Да, все рекомендации системы являются детализированными и могут быть интерпретированы человеком, это стандарт по умолчанию.


Тема ответственности за принимаемые решения, в том числе распределения убытков — очень непростая. Сразу возникает ряд вопросов: насколько точно были выполнены рекомендации системы? Является ли проигрыш в суде следствием ошибки работы/логики системы? Или судебное дело было проиграно по причине того, что судья по своему усмотрению принял некое аномальное решение?..


Поэтому представляется целесообразным, что при переходе от системы поддержки принятия решений к системе принятия решений происходит профессиональная оценка риска, на основе которой рассчитываются пределы ответственности: гарантийная поддержка, страховое покрытие, возмещение убытков и др.

Спасибо за интерес, по вопросам:


  1. Наш опыт разработки говорит о том, что для закрытия даже нескольких самых популярных кейсов нужно проделать значительный объем подготовительной работы, построить своего рода фундамент: трансформировать имеющиеся регламенты в формализованные алгоритмы, в тесном сотрудничестве с заказчиком и непосредственными исполнителями проработать все проблемные и спорные вопросы. Если такой фундамент не создавать, то при переходе к новым кейсам велики шансы, что все придется переделывать "с нуля". По временным затратам наш подход является достаточно дорогим, особенно на самых первых этапах, но в конечном итоге оправдывает себя.


  2. Сразу вспоминается мем из сферы юриспруденции: "2 юриста — 3 мнения"…
    Для иллюстрации можно привести такой пример: как классифицировать отношения компании с ее генеральным директором — это трудовые или корпоративные отношения? С одной стороны, генеральный директор — это сотрудник организации, который работает по трудовому договору, поэтому отношения с ним — трудовая сфера. С другой стороны, генеральный директор — это единоличный исполнительный орган, который назначается решением общего собрания акционеров или советом директоров — а это уже сфера корпоративных отношений.
    Но сам вопрос действительно хороший, в следующей статье мы постараемся раскрыть его более глубоко, когда будем говорить о сравнении доступных онтологий в сфере legal.


  3. По классу решений — это интеллектуальная система поддержки принятия решений, где присутствуют как и классические алгоритмы, так и машинное обучение. Хотя, честно говорят, сегодня это уже интеллектуальная система принятия решений. Лейбл "поддержка" мы прогнозируем в скором будет не актуален, однако это требует серьезных изменений: как на законодательном, так и на психологическом уровне. Лицензирование зависит от формата сотрудничества с заказчиком, по умолчанию — это интегрируемое решение, но можно говорить также о SaaS и других форматах.


Спасибо за комментарий.


Наш многолетний опыт в области high-end юриспруденции (M&A, банкротство, защита активов и др.) позволяет с уверенностью говорить о том, как должна быть построена логика работы системы Legal AI, чтобы соответствовать самым высоким требованиям и стандартам. Для примера: мы хорошо знаем, как на самом деле устроен документооборот в судебной системе: по сравнению и с тем, как есть "на бумаге", и с тем, как должно быть в идеале. Именно поэтому в статье приведен пример в виде фрагмента судебной онтологии. Для тех, кто не столько глубоко погружен в тему — разработчик, data scientist (то есть по пирамиде Акоффа находится на уровнях data и information), действительно увидеть всю картину невозможно. Подчеркну, что наш подход не отменяет необходимости тесного общения с заказчиком и проработки всех деталей на этапах согласованиях ТЗ, написания проектного решения, выпуска релизов и т. п.


В плане нашей критики agile: мы не говорим о том, что Agile — это плохой подход. Наша критика сфокусирована на том, что применение Agile именно создании продуктов — крайне рискованная затея. Стремление создать для клиента "quick win" вполне разумно и обоснованно, однако на практике существенно ограничивает перспективы проектов: LegalTech все никак не может перерасти в настоящий Legal AI.

вам нужно сделать юридический датасет

Именно так мы и поступили, в статье для наглядности представлены наиболее характерные примеры по итогам тестирования и анализа результатов.

С точки зрения канонического data science, Ваша позиция вполне понятна и разумна: надо всегда использовать самую SOTA-версию библиотеки, тестировать на общепринятых датасетах, приводить выверенные метрики accuracy, f1/f2… Таких инициатив достаточно много, и поэтому мы не ставили задачу сделать еще leaderboard.


Наша ценность и вклад принципиально в другом — мы можем оценить практическую применимость существующих решений для автоматизации юридической функции. В частности, надо четко понимать, что юридические тексты имеют существенную специфику и очень не похожи на тексты научных статей, новостей, литературных произведений (как мы описали на примерах). Соответственно, представляется маловероятным, что появление какой-то новой модели с приростом качества в несколько процентных пунктов вдруг "заработает" на юридических текстах.

Спасибо за развернутый и вдумчивый комментарий!
Проблема с OCR действительно есть, но очень хочется верить, что в скором времени мы увидим прорывы в работе с русским языком от разработчиков в этой области.
А пока, очевидно, лучше работать в тех областях, где наличие электронной копии документа — де-факто стандарт.

Извлечение всех разумных смыслов из текста — достаточно сложная задача, насколько мне известно, пока нет практических методик по ее решению.


Мой любимый пример в подтверждение тезиса — Winograd Schema Challenge:


  • на ввод подается предложение: "Приз не влезал в чемодан, потому что он был слишком __ " и задается вопрос "Он — это что?";
  • вместо пропуска может быть либо "большой", либо "маленький";
  • в зависимости от пропущенного слова ответ меняется на противоположный: если "слишком маленький", то правильный ответ "чемодан", если "слишком большой", то — "приз".

Человек такие вопросы решает легко, а для автоматизированных систем и ИНС они очень сложны. В частности, у человека есть понимание, что чемодан и приз — это объекты материального мира, что у каждого из них есть физические свойства (габариты), что у чемодана есть специфическое свойство вмещать в себя другие объекты и др.


Дополнительный фактор — опыт человека, который, по всей видимости, играет важную роль: человек в жизни видел много чемоданов и призов разных размеров, что позволяет легко строить необходимые ассоциации и восполнять пробелы в тексте.


Отмечу, что это всего лишь один из многих факторов, более подробное раскрытие темы извлечения и интерпретации смыслов будет в следующей статье.

Спасибо за комментарий!
С пониманием текста ситуация выглядит примерно так:


image


В одном и том же тексте бухгалтер, юрист, разработчик, инженер и каждый другой видит свои смыслы. Поэтому универсальных (any domain) решений пока нет и, скорее всего, для их создания не обойтись без сильного ИИ (AGI).

Благодарю за комментарий!
Как юрист я хорошо понимаю проблему «ввода» и интерпретации смыслов. Однако есть понимание, что данная проблема имеет рациональное решение; именно на эту тему сейчас готовится материал для следующей статьи.
2

Information

Rating
Does not participate
Registered
Activity