Pull to refresh

Comments 34

Спасибо за обзор ! Насколько я понимаю , Квен может работать на цпу ? Можно ваши тайминги по железу на котором вы запускали модели ? Что есть низкая скорость а что высокая ?

Сейчас вышла версия GGUF формата для квена, поэтому да, может. Мы запускали всё на ГПУ. У нас серверная машина, 3xA4000, 256 ОЗУ плюс Xeon. Высокая скорость у нас - это меньше секунды на изображение, квенчик сильно дольше, лайтоср из-за этого выигрывает, конечно.

Где же главный игрок Mistral OCR?

В каком месте он главный. Что бы он сел в лужу достаточно просто боком текст повернуть.

Здесь в комментариях объясняется почему мистраль ocr лучше любой vision llm

https://habr.com/ru/articles/893460/

А здесь пример с метрическими книгами

https://habr.com/ru/articles/895664/

За полгода качество и там и там значительно улучшилось

Хорошее уточнение ! Обязательно его рассмотрим в будущем)

Плюсую, было бы интересно и его увидеть )

Я не понял, это просто потоковое распознавание с командной строки? В Файнридере можно было корректировать места где распознаватель лажал.

Это распознавание через инференс моделями искусственного интеллекта ) А уж каким способом/фреймворком его вызывать - дело хозяйское (зависит от вашей ОС, железа, используемой модели (локальная или онлайн) и других параметров).

https://habr.com/ru/articles/948934/

Верно, это был инференс, все модели были на vLLM развёрнуты)

Вот мои скорости распознавания текста - текст местами не читаемый на затёртых местах, слабая контрастность и всё остальное мешающее OCR.

Одна страница печаталась за 20 минут в среднем на протяжении 10 часов едедневно и много дней подряд; документация на 45 листов занимала 3 - 3,5 дня. Два дня на напечатать текст, 5 часов на проверку работы, день на сделать чертежи в CAD и отформатировать таблицы; немного перевода в тексте и чертежах не считалось за труд.

Ну это были совершенно не читаемые документы, даже возглавлял небольшую команду по распознаванию этого архива. Модели тогда были не на слуху, а вот OCR перепробовал и в целом перепечатать было легче и быстрее, чем постоянно сравнивать где не распозналось, где неправильно распозналось, где заменило знаки и всё это бесконечно править, Это была техническая документация, ошибки были критично недопустимы.

Если не секрет, использовался ли перекрёстный контроль команды для контроля ошибок ручного распознавания?

Да, использовался.

А подскажите пожалуйста, лучшее на сегодня флоу для распознавания пары тысяч вот таких разворотов (фотографии русских метрических книг 18 века).

Или пока рано о таком задумываться?

Не рано. Лучшие коммерческие модели типа Gemini pro надо пробовать

Потом, естественно, корректировать, но процентов 80-90 может распознать

А если обучить, то вообще шикарно будет

Яндекс тут пару лет назад рассказывал, как решал такую задачу. К сожалению, их инструменты для этого, как понимаю, не публичные, но если у Вас какой-то некоммерческий проект - может, постучитесь к ним, помогут.

ну вот тут недавно писали про OCR манускриптов. Правда в комментах авторы упоминали, что в гитхабе вроде лежит старая версия, но наверное можно написать им напрямую и уточнить.

Я думаю, либо лучшие модели, которые сейчас есть, как, например, Квен 235Б или Gemini. Ну, либо какие-то коммерческие решения.

так появился Гикабу

Пробовал несколько открытых моделей пол года назад, но у всех у них были проблемы с распознаванием таблиц в сканах печатных документом. И самая большая проблема была с определением направления таблицы - то есть горизонтальная она или вертикальная. (Ну и да ещё с вертикальным текстом в колонках.) Как сейчас с этим обстаят дела? Какие модели сейчас лучше всего распознают документы с таблицами? Qwen3 Omni ?

Я думаю, что qwen3 VL большой, например, 235Б, либо же, если касаться только таблиц, paddle VL умеет их отлично распознавать. Там есть настройки, чтобы он понимал ориентацию их, да и вообще довольно гибок в этом плане.

Это да, но мощности были ограничены на нашей серверной машине, и не все могут запустить 235 кВ локально. Тут рассмотрены модели, которые используются у нас.

допустила несколько странных ошибок, заменив кириллические буквы на похожие латинские 

А вы указывали, какой язык собираетесь распознавать?

PaddleOCR вы можете дообучить и он будет отлично распознавать, а вот LLMки дообучать проблематично

Тут данные из интернета, но в нашем проде важно было решение из коробки, так как данных даже для теста не так много, не говоря уж про дообучение.

Как референс наверное надо было использовать специальный коммерческий продукт по типу Abbyy fine reader. Печатный текст с таблицами лет как 20 распознает лучше современным ллмок. Что в последних версиях не знаю, не было нужды использовать. Но всякую скснированную бухгалтерскую первичку распознает с точностью 99%.

Да, знаем об этом решении, но нам нужны были решения с открытым исходным кодом)

С печатной таблицей тоже можно справиться, просто не ллмкой. При помощи функций cv2 и numpy можно выявлять таблицу в документе, вырезать её и её ячейки, а потом просить расшифровывать конкретные ячейки и самим восстанавливать таблицу

Я вас очень сильно огорчу. Модели:

LightOnOCR 1B
Gemma 27B Vision
Qwen3 Omni
Qwen3 VL 30B A3B - с задачей не справились. Все они пропустили букву "ф" в заголовке. Зачем она там нужна - не вашего ума дело. "Водяные знаки" бывают не только в бумаге. В документах такого уровня ошибок не бывает, спросите юристов. Такие документы воспринимаются буквально, побуквенно. Если написано "карава", значит речь идёт про караву, а не про корову, как вам могло показаться. У программы распознавания нет права на редактирование таких бумаг.

Тем кто спросит: "А что, если карава это всё-таки корова, таки ошиблись?" Отвечаю - появится новый документ, за подписью издателя или его руководителя в котором будет сказано что "в документе номер такой-то от такого-то числа слово "карава" читать как "корова"". Только так.

Гугл картинки справляется почти со всем почти идеально

Но я не знаю ни как его на поток поставить ни как ваши штучки, я не из мира IT

Эх...

А на картинках худшего качества (например, не сканах, а фотографиях - под углом, с искажениями, etc) не тестировали?

Тестировали, конечно. Просто в данной статье это не было указано :)

Sign up to leave a comment.

Articles