Как стать автором
Обновить

Комментарии 6

Поясните, пожалуйста, этот момент:
удалось повысить качество распознавания по этим полям более чем на 20% (с 91.41% до 93.12%)

у меня с этими данными получается не 20%, а 2% и не более, а менее.
(100 — 93.12) / (100 — 91.41) = 0.8

Но всё равно это не более 20%
Спасибо за уточнение.
Обычно в научной литературе под улучшением качества подразумевается процент уменьшения ошибок.
Привет, капитан. «Мы пробуем все варианты неоднозначно разобранных цифр и смотрим, сошлась ли контрольная сумма». Что-ли есть другие варианты использования контрольной суммы? Либо пытаться исправить ошибку, либо о ней сигнализировать.

Посчитали бы, например, вероятности — вероятность исправить правильно, вероятность исправить неправильно — в зависимости от вероятности неправильно распознанного символа (с учетом того, что контрольный тоже может быть неверным), вероятность правильности до исправления, вероятность после. Или рассмотрели поближе код, который в ИНН используется — вдруг там можно без полного перебора определить правильное исправление, если, например, предположить, что ошибка только в одном символе.

Я почему придираюсь (к статье, не к авторам) — написано очень наукообразно, а суть простая. Если бы все это рассказать нормальным языком, то статья бы хорошо читалась — описывать несложные вещи тоже полезно.
Забавно, ИНН нетрудоспособного юрлица :)

Я вам подкину идей для ОГРН:
— установите вероятность первой цифры равной 1 до 0,95 и 0,05 для 5
— второй цифры равной 0 до 9/14=0,64 и 0,36 для 1
— также вероятность сочетания второй и третьей цифры можно соотнести со статистикой по количеству регистрации юрлиц из вестника госрегистрации или из статрегистра.
— запилите справочники кодов инспекций по регионам

Еще можно сделать проверку существования ИНН и ОГРН в онлайне у стороннего поставщика данных Статрегистра или ЕГРЮЛ — это вообще повысит качество до 0,999 если применять ИНН и ОГРН в паре и с учетом наименования юрлица.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий