Comments 5
С какими сложностями вы столкнулись, пробуя применить LLM?
Основная сложность - работа с опечатками и ошибками, которые приходят из OCR части.
Дальше говорю по состоянию мира открытых или публично доступных LLM на примерно конец прошлого декабря:
Поведение LLM модели очень сильно зависит от используемых токенизаторов, а токенизаторы при обучении в основном видят только чистый текст. Случайная небольшая ошибка от OCR, например "ворона"->"ворсна" вносит значительное изменение в результат работы токенизатора и смысл входа в значительной мере теряется.
Замечательный пример похожего поведения, основанного на особенностях работы токенизаторов:
Me:
Сколько букв "а" в слове "аааааааааа"?
Some LLM (32B):
В слове "аааааааааа" 9 букв "а".
На самом деле 10, ошибка из-за того, что после токенизации появляются токены "аа, ааа" количество которых сложно связано с ожидаемым ответом.
Если же "помочь" токенизатору модели, то все сразу станет просто:
Me:
Сколько букв "а" в слове "а а а а а а а а а а"?
Some LLM (32B):
В этой строке 10 букв "а".
False positive слова, пришедшие не совсем из контекста, а так же случайно перепутанный порядок, например, абзацев в общем тексте, обычно большими моделями обрабатываются нормально.
Извиняюсь за некоторый оффтоп, но где можно почитать про связывание нескольких моделей?
Не то чтобы какая-то отдельная магия, специальных статей не подскажу.
На стыке в основном классические алгоритмы ml и зрения. Смысл был скорее в том, чтобы аккуратно их переписать на gpu, а так же "подружить" с OpenXLA (https://openxla.org/xla). OpenXLA - замечательный фреймворк, который помогает собирать довольно хорошие по производительности gpu ядра на основе не сильно сложного для разработчика кода.
Вы извлекаете данные из Structured и Semi-structured documents или можете также извлекать данные из Unstructured?
И также вопрос касательно таблиц и вложенных таблиц.
Как вы их готовите?
Вопрос не праздный, в моем случае большое количество документов с таблицами, причем формат каждого документа не фиксированный.
Допустим, регулирующие документы банковской деятельности, которые плодятся как тараканы, но старые не упраздняются.
В итоге получается огромное количество требований, которые в теории можно перевести в цифровые правила, если только преобразовать исходные документы с соблюдением таблиц и вложенных таблиц в цифровые правила.
Раньше перегоняли требования в цифру с подключением Regulatory Compliance Attorneys, но это трудоемкий Error-Prone процесс.
В 2023 начали использовать LLM, но столкнулись с иными проблемами.
Сейчас, спустя 2 года, ситуация улучшилась, но ключевые проблемы остались. И одна из проблем – это именно OCR и перегонка Regulatory Requirements в цифру.
Распознавание текста в банке: трудности и решения