Alexandrova00722 мая в 09:01

Быстрый OCR на основе Paddle

Средний

9 мин

8.8K

Программирование * Искусственный интеллект

Туториал

+10

Комментарии 6

badsynt 22 мая в 10:40

Есть люди, которых закон обязывает раскрывать некоторые чувствительные данные, и они, скрепя сердце, вынуждены выкладывать толстенные отчеты в публичный доступ. Но они не хотят, чтобы эти данные кем-то анализировались, попадали в базы данных и т.п., по крайней мере бесплатно. (За деньги еще куда ни шло). Для достижения этой цели есть простые и дешевые средства, доступные почти всем. А противодействия этому со стороны госорганов пока совсем нет... Называется data poisoning. И OCR к этому особенно чувствителен. Какие-то меры принимаете?

Alexandrova007 22 мая в 13:29

Спасибо за крутой вопрос - он намного фундаментальнее и шире темы статьи, постараюсь всё же прокомментировать.

При подаче на вход в OCR изображения (JPEG, PNG, BMP, TIFF), оно представляется как матрица пикселей, в которой нет ничего тайного. Поэтому OCR видит картинку примерно так же, как и человек, и детектирует только те символы, на которых обучалась модель. Управляющие символы (например, tab, конец строки) не могут быть прочитаны, так как у них нет графического представления. Нелегитимные техники вроде ‘белым по белому’ тоже потеряют контраст и станут невидимы как для глаза, так и для OCR.

При оцифровке возможна подмена букв визуально схожими символами (как в слове P@ssw0rd). Тогда можно в исходном файле словаря в ручном режиме заменить спорные символы на более приоритетные. Например, заменить греческие символы на латиницу.

А вот риски, связанные с data poisoning, могут возникнуть на этапе конвертации PDF в картинку. Если в pdf есть скрытые слои, они могут проявиться: в исходном pdf не видны, а на изображении уже есть. Тогда OCR читает их как обычную картинку. Если в результате схлопывания слоёв после pdf на картинке возникло много шума, можно попытаться очистить его, повысить контраст... Но серебряной пули словно нет.

В данном алгоритме никаких мер защиты не предусмотрено - просто читаем текст с картинки. Но есть о чём задуматься, спасибо!

badsynt 22 мая в 15:28

У термина "data poisoning" много значений и Вы, скорее всего, меня не правильно поняли.

Я имел в виду намеренное внесение едва заметных изменений в цифровые изображения. Такие микроскопические вмешательства делают изображение визуально неотличимым от исходного для человека, но вводят в заблуждение алгоритмы машинного обучения.

Что-то вроде этого:

https://github.com/andylow-wl/Adversarial

У меня был неприятный опыт с GlmOCR. Это маленькая нейросетка, gguf которой сделан в недрах GGML, поэтому она очень быстро работает с llama.cpp на всем. Нужно было распознать таблицу из 50 строк и 5 колонок с числами, которые все используются в расчете. (Процедура получения таблицы непосредственно в XML стоит где-то 150 тыс. руб в год, платить столько за один раз не хотелось, а вручную делать - лень). Пайплайн был такой: подаем на вход картинку jpeg, результат конвертируем в csv другой нейросеткой( одна из gemma 4). Оказалось, что одно из 250 чисел распознается неправильно. Но как другое число. Стабильно. Исходное число выглядит так, что кажется и ResNet бы справилась. В результате весь расчет неправильный. Свежеиспеченный Qwen (часа три прошло с момента появления на HuggingFace) распознал и сделал csv за один проход совершенно правильно, но медленно. Допускаю, что все это результат паранойи. А если нет? Тут я даже вспомнил про старый добрый Abby FineReader, который не умел складно врать...

Alexandrova007 25 мая в 08:14

Теперь кажется поняла суть. Спасибо, что поделились — очень интересный кейс!

На таких тонких местах я Paddle не тестировала. Вероятно, такие махинации с картинками реальны, и FineReader от ABBYY ‘без самодеятельности’ в таких сценариях действительно выигрывает.

Забавно, что потребность в разработке нового быстрого OCR как раз возникла из желания заменить решение от ABBYY.

В чём FineReader оказался слабее:

коммерческий, платная лицензия
инференс примерно в два раза медленнее, чем у Paddle решение
качество распознавания хуже: там, где FR распознаёт 50–60% текста, Paddle выжимает 85% и больше.

Но это замеры на ‘чистых’ данных, без намеренных искажений.

Mavito 22 мая в 17:18

Спасибо за публикацию. Несколько вопросов:

Каков оптимальный DPI изображений для этой модели (144/200/300…)?
Означает ли “Для v5 это 960 пикселей”, что размер наибольшей стороны изображения во время “Шаг 3. Детекция текстовых блоков” не должен превышать 960px? Т.е. эта модель не сможет распознать текстовые блоки со страниц pdf журналов, например NYT или FT т.к. при сохранении читаемости стороны таких изображений более 2 (или 4) тыс. пикселей.
“модель распознавания ожидает фиксированную высоту H” - т.е. блоки с вырезанным текстом надо всегда преобразовывать в изображение с высотой h = 48 (из заметок в конце публикации), а если блок будет содержать несколько строк друг под другом (когда текст на исходном изображении расположен в колонках)?
Подойдет ли для “Масштабирование изображения с добавлением паддинга для кратности сторон 32” такая функция smart_resize с factor=32?
Будет ли на обычном настольном компьютере/ноутбуке (6-8 ядер по ~4 ГГц и 8-16 Гб RAM) CPU вариант укладываться в 5 секунд на изображение?

Alexandrova007 25 мая в 09:16

Спасибо за вопросы, с удовольствием отвечу:

1) При конвертации A4 PDF я использовала DPI = 200. Этого достаточно для большинства документов.

2) 960×960 пикселей - это вход модели детекции, а не ограничение на исходное изображение.

Исходное изображение (включая большие форматы) масштабируется до 960 × 960 перед подачей в детектор. (Пробовала ещё 640, 1280 пикселей, для 960 - лучшее качество детекции).
После того как детектор нашёл прямоугольники на уменьшенной картинке, координаты bbox обратно масштабируются к исходному размеру.
Текст вырезается из оригинального изображения (не из уменьшенного).

3) Распознаватель rec работает с одной строкой текста (с фиксированной высотой). Хорошая модель детекции, на предыдущем шаге, должна найти каждую строку отдельно. Поэтому целый абзац на вход rec не попадёт.

4) Да, smart_resize это правильный подход. Но я использовала OpenCV библиотеку, там эту логику я писала вручную:

scale = target_size / max(h, w)
new_h, new_w = int(h х scale), int(w х scale)
new_h = int(round((new_h / 32) х 32))
new_w = int(round((new_w / 32) х 32))

cv2.resize(image, (new_w, new_h))

5) Инференс за 5 секунд на 8 vCPU И 16 ГБ RAM - вполне реально. На такой конфигурации latency для скана А4 с умеренной плотностью текста составляет 3-4 секунды.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий