LegalResources23 июл 2024 в 09:30

Наш опыт применения AI-технологий для классификации документов для подачи в суд

Простой

5 мин

3.4K

Обработка изображений * Машинное обучение * Natural Language Processing *

Из песочницы

Комментарии 3

noiiberg 23 июл 2024 в 11:10

Здорово, когда умные люди делают полезные вещи. Отличная статья! Спасибо!

Anvarkazakov 25 июл 2024 в 07:44

С паспортами - чем плох YA vision? он умеет это делать быстро и за прям бувально копейки.
а используемый OCR - tessaract?
если говорим о извлечении контекстов из документов почему не использовать LLM? как и для классификации, так и излвченеия данных
В рамках работы в претензионно-исковой деятельностью в извлечении данных из претензий, исковых заявлений и решений суда добился точности в 100%.

tech_spb 25 июл 2024 в 09:33

Добрый день. YA vision не тестировали, дотюнили CNNку свою спасибо за идею! OCR используем: tessaract и EasyOCR в комбинации. Что вы понимаете под контекстом? Имеется ввиду смысловые конструкции например резулитивной части судебного приказа? В данном сервисе мы не генирируем какой-либо новый контент. Мы стараемся выцепить весь текст, найти класс - вид документа и применить пользовательские настройки к нему. LLM не видим смысла использовать в данных сервисах. Во первых ее надо локально разворачивать, так как мы документы с ПД обрабатываем - а это уже значительные затраты на инфраструктуру. Во вторых CNN и OCR не хуже справляются чем любая LLM. Давайте обсудим ваш кейс?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий