Comments / Profile of ASenkov / Habr

@ASenkov

Корпоративный архитектор в МВидеоЭльдорадо

ProfileArticlesPostsNewsComments6

Оптическое распознавание символов (OCR) на базе LLM

ASenkov Apr 7 2025 at 16:17

Спасибо, посмотрим. Не пробовали.

Оптическое распознавание символов (OCR) на базе LLM

ASenkov Apr 7 2025 at 16:17

Да, думали взять это в проработку в следующем этапе проработки, спасибо за совет.

Оптическое распознавание символов (OCR) на базе LLM

ASenkov Apr 7 2025 at 16:16

Тут мы на самом деле ушли довольно далеко от изначальной идеи.
А идея была простой: дёшево и быстро получить инструмент. В плане цен gpt4o-mini нас устраивал ещё до кэширования промптов, а потом и подавно. В плане скорости реализации, тут тоже всё очень классно выходило. Но в ходе проработки выяснились ограничения на передачу персоналки...
С ребятами, которые делают OCR мы говорили, даже с их компетенциями это дело не быстрое, тем более много разных форматов. Поэтому, действительно, выбор был не велик.

Оптическое распознавание символов (OCR) на базе LLM

ASenkov Apr 7 2025 at 16:11

Спасибо, взяли в проработку!

Оптическое распознавание символов (OCR) на базе LLM

ASenkov Apr 7 2025 at 15:48

Спасибо! Qwen2.5VL-32B глянем
С провайдером все те же проблемы с трансграничной передачей персданных.
Что касается Elma, все эти решения построены на базе классического OCR и распознавания четких форматов документов (например, УПД). Половину того что у нас есть они не прочитают (хотя конкретно их решение мы не рассматривали).

Оптическое распознавание символов (OCR) на базе LLM

ASenkov Apr 7 2025 at 15:22

Выглядит неплохо, да, но когда начинаешь собирать статистику хоть на какой-то выборке начинает всплывать неудобная правда (как мы в статье и написали). Т.ч. лучше делать выборку хотя бы в 100 разнородных картинок.

Information

Specialization