Комментарии 3
Здорово, когда умные люди делают полезные вещи. Отличная статья! Спасибо!
С паспортами - чем плох YA vision? он умеет это делать быстро и за прям бувально копейки.
а используемый OCR - tessaract?
если говорим о извлечении контекстов из документов почему не использовать LLM? как и для классификации, так и излвченеия данных
В рамках работы в претензионно-исковой деятельностью в извлечении данных из претензий, исковых заявлений и решений суда добился точности в 100%.
Добрый день. YA vision не тестировали, дотюнили CNNку свою спасибо за идею! OCR используем: tessaract и EasyOCR в комбинации. Что вы понимаете под контекстом? Имеется ввиду смысловые конструкции например резулитивной части судебного приказа? В данном сервисе мы не генирируем какой-либо новый контент. Мы стараемся выцепить весь текст, найти класс - вид документа и применить пользовательские настройки к нему. LLM не видим смысла использовать в данных сервисах. Во первых ее надо локально разворачивать, так как мы документы с ПД обрабатываем - а это уже значительные затраты на инфраструктуру. Во вторых CNN и OCR не хуже справляются чем любая LLM. Давайте обсудим ваш кейс?
Наш опыт применения AI-технологий для классификации документов для подачи в суд