Комментарии 9
Засунули бы в каждую версию одну и ту же среднейпоганости картинку -- показать наглядно рост на реальных данных, а не на демо-картинках из комплекта :)
Если текст с такой картинки хоть как то распознается первой версией - более поздним будет совсем легко, и дальнейшего улучшения качества не будет.
Наверное несложно найти кейс, который вообще не распознается ранними версиями, но в этом тоже смысла мало.
Я пользовался ФР (не помню версий, впрочем, давно было дело). И чистка и вычитка текста после него требовалась хорошая такая. Формат и структуру тоже, но вот тут разница между версиями была огромной.
Наверное несложно найти кейс, который вообще не распознается ранними версиями, но в этом тоже смысла мало.
Тут надо еще весь процесс снимать на видео. Ранние, например, умели только отсканировать картинку и сразу же ее распознать. Потом сделали так, что можно было отсканировать всю книгу, запустить распознавание и пойти спать. Еще в ранних надо было руками выделять отдельные части и ставить их тип — сплошной текст, картинка, таблица. В таблицах надо было строки и столбцы выделять. Если текст многоколоночный — каждую колонку тоже надо было отметить.
Первый раз столкнулся с файнридером версии 4 в 2003, а спустя небольшое время уже довелось поработать с 7. Небо и земля просто. Огромную работу проделали создатели.
С одной стороны, уже 6 версия делает всё необходимое.
Вопрос для будущей статьи: а кто делал дизайн заставок?
А куда делись упоминания технологии MedText? Идея была классная
История FineReader: так создавалась легенда (часть I)