inkln Feb 25 at 11:00

Распознавание текста в банке: трудности и решения

Medium

8 min

2.6K

Т-Банк corporate blogMachine learning*Artificial Intelligence

Case

+15

Comments 5

exwill Feb 25 at 11:17

С какими сложностями вы столкнулись, пробуя применить LLM?

inkln Feb 25 at 13:10

Основная сложность - работа с опечатками и ошибками, которые приходят из OCR части.

Дальше говорю по состоянию мира открытых или публично доступных LLM на примерно конец прошлого декабря:

Поведение LLM модели очень сильно зависит от используемых токенизаторов, а токенизаторы при обучении в основном видят только чистый текст. Случайная небольшая ошибка от OCR, например "ворона"->"ворсна" вносит значительное изменение в результат работы токенизатора и смысл входа в значительной мере теряется.

Замечательный пример похожего поведения, основанного на особенностях работы токенизаторов:

Me:
Сколько букв "а" в слове "аааааааааа"?

Some LLM (32B):
В слове "аааааааааа" 9 букв "а".

На самом деле 10, ошибка из-за того, что после токенизации появляются токены "аа, ааа" количество которых сложно связано с ожидаемым ответом.

Если же "помочь" токенизатору модели, то все сразу станет просто:

Me:
Сколько букв "а" в слове "а а а а а а а а а а"?

Some LLM (32B):
В этой строке 10 букв "а".

False positive слова, пришедшие не совсем из контекста, а так же случайно перепутанный порядок, например, абзацев в общем тексте, обычно большими моделями обрабатываются нормально.

Bunshi66 Feb 25 at 19:34

Извиняюсь за некоторый оффтоп, но где можно почитать про связывание нескольких моделей?

inkln Feb 26 at 10:38

Не то чтобы какая-то отдельная магия, специальных статей не подскажу.

На стыке в основном классические алгоритмы ml и зрения. Смысл был скорее в том, чтобы аккуратно их переписать на gpu, а так же "подружить" с OpenXLA (https://openxla.org/xla). OpenXLA - замечательный фреймворк, который помогает собирать довольно хорошие по производительности gpu ядра на основе не сильно сложного для разработчика кода.

vagon333 Feb 26 at 00:07

Вы извлекаете данные из Structured и Semi-structured documents или можете также извлекать данные из Unstructured?
И также вопрос касательно таблиц и вложенных таблиц.
Как вы их готовите?

Вопрос не праздный, в моем случае большое количество документов с таблицами, причем формат каждого документа не фиксированный.
Допустим, регулирующие документы банковской деятельности, которые плодятся как тараканы, но старые не упраздняются.
В итоге получается огромное количество требований, которые в теории можно перевести в цифровые правила, если только преобразовать исходные документы с соблюдением таблиц и вложенных таблиц в цифровые правила.

Раньше перегоняли требования в цифру с подключением Regulatory Compliance Attorneys, но это трудоемкий Error-Prone процесс.
В 2023 начали использовать LLM, но столкнулись с иными проблемами.
Сейчас, спустя 2 года, ситуация улучшилась, но ключевые проблемы остались. И одна из проблем – это именно OCR и перегонка Regulatory Requirements в цифру.