Обновить

Найди 10 отличий, или Сравниваем редакции договоров с помощью ИИ

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели8.4K
Всего голосов 16: ↑15 и ↓1+16
Комментарии5

Комментарии 5

В Microsoft Word можно сравнить два документа с выделением различий.

Только часто возникает задачка сравнить не два вордовских документа, а, например, нашу версию в Ворде и подписанный скан, который нам вернули в виде PDF без текстового слоя. Если распознавать PDF и сравнивать исходник с результатом - вылезет куча артефактов OCR, которые Ворд тоже запишет в отличия. Bот тут LLM реально спасают. Вообще для этого отдельных инструментов не надо, если не нужен особо заковыристый формат вывода или встраивание в другой процесс - веб-морды любой LLMки достаточно. Если точность анализа критична - то с ручной проверкой после них, конечно.

Кажется, что если точность критична (а юридические документы почти всегда из этой категории), то лучше уж прогнать через OCR, перевести оба документа в plain text и так сравнить. Результаты нейронки общего назначения (или что вы подразумеваете под встроенным ИИ) слишком недетерминированы, а вот OCR наоборот сейчас стали очень хороши. Тем более что нейронка всё равно делает тот же OCR чтобы получить различия. Более того, в современных OCR под капотом и без того используются специализированные нейросети.

А вообще, статья - реклама без технических подробностей на техническом ресурсе. Ну хоть абзац бы написали про устройство этого вашего "встроенного ИИ". Ну вы же не на форум домохозяек текст пишете, ребята!

После OCR (хоть встроенного Word'овского, хоть Finereader), переводи в текст или не переводи, остаётся куча всяких отличий в количестве пробелов, знаках препинания, написании слитно/раздельно, опечатки какие-то и т.п. Замыливается глаз всё это просматривать и есть риск не увидеть за подобными артефактами значимые отличия. Нейронки в этом плане лучше могут отделить сутевые различия от формальных. Да, с риском ошибок. Так у юриста, который глазами смотрит, - тоже риск ошибок. А качество проверки документа - это всегда баланс затраты/риски. Наверное, оптимальный инструмент должен сочетать оба подхода - посимвольное сравнение выделяет все расхождения, а нейронка отдельно подсвечивает те из них, которые сочтёт существенными. Надо такое написать, что ли :)

А по поводу статьи - согласен с оценкой, безусловно.

Стыдно, каемся. Добавили 2 абзаца про техническую основу, а подробнее раскрыли тут.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
www.directum.ru
Дата регистрации
Дата основания
Численность
501–1 000 человек
Местоположение
Россия