
Комментарии 9
Qwen-VL почему не поучаствовал в тесте? - как пример вполне себе открытой модели?
Почему только английский язык?
Была бы полезной ссылка на исходники в оригинальном качестве - для оценки и независимых тестов.
Злободневная для меня тема. Как раз бьюсь над решением проблемы с распознаванием кропов определенных полей в ЖД накладных с рукописным текстом, причем не всегда он русский, а может быть английским, китайским, вьетнамским.
Добился распознавания почти всех 6 необходимых для извлечения полей до 95-99% точности, кроме одного (где не могу перейти планку в 85%), где могут присутствовать: печати и штампы разных цветов, зачеркнутый разными ручками текст (который нужно извлечь и не весь, а частично по определенным паттернам), артефакты сканирования, необычные способы написания чисел и букв. Из этого поля надо извлечь только одно число. Испробованы: DeepSeek-OCR, GPT-5, Gemini, PaddleOCR, Tesseract и еще куча менее известных. Построен довольно хитрый конвейер из обученной YOLO - специализированной OCR - LLM - постпроцессинг (эвристика+regex).
Если добьюсь 95% точности на оставшемся поле, это можно будет считать победой. Пожелайте удачи ))
Есть мысль обучить отдельный доп классификатор на рукописных цифрах, но мне кажется что эта овчинка не стоит выделки по затратам время/качество.
Что ж так в ЖД все сложно-то и не структурировано!
Очень напрашивается сравнение ещё с Qwen3-VL
Я купил Remarkable, использую, но хотелось бы большего, поэтому все эспериментирую, распознавание рукописного ввода у блокнота есть, но только не русского, и только онлайн и подпиской. На Реддит пишут, что в remarkable используется сервис MyScript (тот, который Nebo) раньше был, это интересно, у меня на iPad приложение их стоит (покупал в кучерявых доковидных временах), работает хорошо и офлайн, но ремаркаблы сделали именно как сделали - онлайн, много языков, но русского нет и по подписке.
Именно поэтому решил смотреть в сторону отдельных решений. Сейчас фаза тестирования локальных решений - модель Gemma3:12b, работающая локально лучше всех справилась, тестировал qwen'ы, в том числе и vl, которые запускаются локально у меня (до 13b), но все равно, качество распознавания не фонтан, есть неверные интерпертации слов, есть откровенный сумбур бессмысленный, даже использовал промпты, типа "сначала посчитай количество слов, затем распознай каждое слово, если есть вариативность, запомнить варианты, затем пойми смысл, выбери лучшие варианты из запомненных, чтобы максимизировать смысл..." и т.д. также запланировал поэкспериментировать на рабочей LLM , кажется 120B развёрнуто у нас, надо пробовать...
Почерк у меня не сахар, конечно, но в продуктив пока не могу принять, мои заметки явно будут криво распознаны и смысл потеряется. Сейчас думаю в двух направлениях- локальные модели + контекст более полный (много терминов, фамилий и сокращений в моих заметках), второе - экспериментировать с сервисами, тот же MyScript даёт api, какой то объем бесплатных распознаваний, пару раз использовал NotebookLM - неплохо, почти идеально, но все таки локальное решение ищу для секьюрности.
LLM vs. почерк: практическое сравнение GPT-5, Gemini и Claude в задачах OCR