Комментарии / Профиль aak204 / Хабр

Андрей@aak204

Пользователь

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Я выше писал, что всё через vllm и докер было запущено. Насчёт Тессеракта: возьмите большую таблицу и текст и посмотрите, что вернёт Тессеракт и в каком формате, а также что вернёт PaddleVL.

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

aak204 21 ноя 2025 в 10:38

Время покажет. На таблицах paddle, всё остальное — VL-модели какие-то, с хорошими промтами. Если задача чисто OCR без проверки и всего остального, можно и что-то попроще. Qwen8b VL отлично справлялся.

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

aak204 20 ноя 2025 в 20:06

Тестировали, конечно. Просто в данной статье это не было указано :)

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

aak204 16 ноя 2025 в 20:37

Да, знаем об этом решении, но нам нужны были решения с открытым исходным кодом)

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

aak204 16 ноя 2025 в 17:41

Тут данные из интернета, но в нашем проде важно было решение из коробки, так как данных даже для теста не так много, не говоря уж про дообучение.

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

aak204 16 ноя 2025 в 17:40

Конечно)

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

aak204 16 ноя 2025 в 13:39

Это да, но мощности были ограничены на нашей серверной машине, и не все могут запустить 235 кВ локально. Тут рассмотрены модели, которые используются у нас.

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

aak204 16 ноя 2025 в 12:56

Верно, это был инференс, все модели были на vLLM развёрнуты)

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

aak204 16 ноя 2025 в 12:55

Я думаю, что qwen3 VL большой, например, 235Б, либо же, если касаться только таблиц, paddle VL умеет их отлично распознавать. Там есть настройки, чтобы он понимал ориентацию их, да и вообще довольно гибок в этом плане.

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

aak204 16 ноя 2025 в 12:53

Я думаю, либо лучшие модели, которые сейчас есть, как, например, Квен 235Б или Gemini. Ну, либо какие-то коммерческие решения.

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

aak204 16 ноя 2025 в 12:51

Сейчас вышла версия GGUF формата для квена, поэтому да, может. Мы запускали всё на ГПУ. У нас серверная машина, 3xA4000, 256 ОЗУ плюс Xeon. Высокая скорость у нас - это меньше секунды на изображение, квенчик сильно дольше, лайтоср из-за этого выигрывает, конечно.

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

aak204 16 ноя 2025 в 12:49

Хорошее уточнение ! Обязательно его рассмотрим в будущем)

Информация

Специализация