oibek Sep 20 2011 at 08:04

Тестирование ABBYY FineReader 11

6 min

+28

Comments 27

Berghoff Sep 20 2011 at 09:12

Пользуюсь Fine Reader 10 для распознавания текстов в бюро переводов. Что странно, хотя языков номинально и много, но нет некоторых языков СНГ. Вопрос скорее не к автору, но имеет ли смысл обновляться на 11-ю?

oibek Sep 20 2011 at 09:22

Из языков СНГ в расширенном списке (видимо, в ваших терминах «номинально») вижу все возможные, но со словарной поддержкой только следующие: Армянский (Восточный, Грабар, Западный), Башкирский, Иврит, Латышский, Литовский, Русский, Татарский, Украинский, Эстонский.

chuma3 Sep 20 2011 at 09:13

Ойбек, спасибо за обзор.
А каково разрешение исходных фотографий?
Вариант до устранения трапециевидных искажений очень неплохо читается.
По сути только 2 ошибки («гористоечаются» и «со с то ящ и е»), но это вполне терпимо, учитывая способ съемки.

oibek Sep 20 2011 at 09:35

Размер фото 2592x1936, т.е. разрешение около 235dpi. Это те самые 5 мегапикселей айфона. Насчет способа съемки вы правы, пытался воссоздать атмосферу спешки и отсутствия сосредоточенности.

Evengard Sep 20 2011 at 09:58

Онлайн-сервис распознавания с постраничной оплатой у ABBYY вообще то есть.

vkupriyanov Sep 20 2011 at 10:19

Лучше бы сравнили по каждому из улучшений с 10й версией. Что сложного? А так это абстракция

oibek Sep 20 2011 at 10:25

Спасибо за комментарий. Целью данного топика не являлось сравнение именно этих версий. Но попробую в отдельном топике сравнить их. Что бы вам было интересно, на какую функциональность обратить особое внимание?

vkupriyanov Sep 20 2011 at 10:32

По идее по всем позициям, которые выдвигают маркетологи конторы

В частности время работы и точность распознавания сложных таблиц. Вот взять один документ средней паршивости и прогнать в максимально похожих условиях.

Если не ошибаюсь, то в 10й версии при выполнении сценария нельзя было приостановить его работу (в паузу). Здесь это появилось? (при большом числе страниц и слабом компе это проблема)

oibek Sep 20 2011 at 10:43

Я проверил, в момент распознавания есть только кнопка «Остановить». Но если, скажем, распознается 10 страниц, из них 4 уже распознано и в данный момент распознается 5-я, то при остановке процесса эти 4 страницы будут считаться распознанными и в случае повторного запуска процесса распознавания они не будут распознаваться снова, т.е. программа начнет с 5-й страницы. В итоге (из-за отсутствия функции «пауза») вы всего лишь потеряете то время, которое ушло на частичное распознавание 5-й страницы при первоначальном процессе, хотя, возможно, на слабом компьютере и это время существенно.

MKrivosheev Sep 20 2011 at 11:33

Можно заметить, что кроме FineReader.exe запускаются ещё FineExec.exe в количестве равном количеству ядер. Процессы эти занимаются добавлением и распознаванием. В результате компьютер нагружен максимально, из-за чего во время работы FR сложно заниматься чем-то ещё. По крайней мере, в FR10 было так.

В FR11 при количестве ядер >3 FineExecов запускается на 1 меньше, чем раньше, что даёт возможность, например, сёрфить интернеты во время работы FR. Так что кнопка «остановить», надеемся, будет нужна ещё меньше, чем нужна была раньше.

oibek Sep 20 2011 at 10:45

Что касается сравнения, то, как только выйдет возможность, обязательно протестирую и напишу.

vkupriyanov Sep 20 2011 at 10:46

спасибо

vmb Sep 20 2011 at 11:17

А в распознавании языков с диакритиками там ничего не изменилось? Помню, безнадёжной затеей было заставить FineReader распознавать древнегреческий, даже новый язык нельзя было создать со всеми комбинациями юникода «гласная+придыхание/ударение».

oibek Sep 20 2011 at 11:23

Пришлите, пожалуйста, картинку, я ее распознаю и опубликую результаты.

vmb Sep 20 2011 at 11:27

У меня сейчас, к сожалению, нет под рукой сканера. Но, может быть, вы сможете сделать снимок экрана и распознать его? Например, начала диалога Платона:

el.wikisource.org/wiki/%CE%A6%CE%B1%CE%AF%CE%B4%CF%89%CE%BD

Можете сделать сколько угодно крупный шрифт, там проблема была принципиальная, качество не играло роли, просто все диакритики игнорировались или путались с другими буквами.

oibek Sep 20 2011 at 12:03

Я распознал текст, а результаты выложил в P.S. топика.

vmb Sep 20 2011 at 12:19

Спасибо. В общем, всё как и раньше: есть только новогреческий, с одним видом ударения, к тему и сводятся все диакритики. Жаль, потому что даже в книгах на новых языках древнегреческий встречается очень часто: не только в виде пространных цитат, но и в виде многочисленных вкраплений древнегреческих вариантов терминологии (философской, богословской, лингвистической, психологической, исторической и так далее).

А нельзя ли сейчас создать новый язык и наполнить его расширенной греческой страницей из юникода, со всеми вариантами гласных с диакритиками? Конечно, это довольно утомительное занятие, так что не сомневаясь отказывайтесь, если нет времени, я пойму. И так большое спасибо.

oibek Sep 20 2011 at 12:35

Я не имею никакого отношения к компании ABBYY и провожу тесты добровольно и беспристрастно. Хотя продукт мне нравится. Что касается диакритических знаков, то мне удалось создать копию греческого языка, добавить туда все символы и текст распознался (как мне кажется) правильно. Посмотрите в конце топика.

vmb Sep 20 2011 at 13:29

Да я ведь без всяких претензий и подозрений, простите, если что не так. Да и к компании ABBYY никаких претензий, они ведь в первую очередь учитывают запросы большинства.

К сожалению, почти ничего не изменилось (это, конечно, не ваша вина): ни подписных йот (крючочки под гласными), ни придыханий (такие маленькие скобочки над гласными), ни облечённых или тупых ударений (волнистые линии и ударения, направленные слева направо), ни знаков сокращений (тоже маленькие скобочки, только после букв), ни сочетаний этих знаков так и не появилось, хотя они все есть в тех абзацах оригинала, которые вы выбрали. Всё свелось к новогреческому острому ударению, за незначительным исключением.

На всякий случай, если вина на мне и я плохо объяснил: добавлять нужно было вот эти буквы (они есть не в каждом шрифте, только с расширенным юникодом, и возможно сами механизмы добавления новых знаков в FineReader не позволяют их добавить:

Большое спасибо за ваше время.

dimonline Sep 20 2011 at 13:45

А такой вариант, который описан вот в этом посте вас не устроит?

vmb Sep 20 2011 at 14:08

В том то и дело, что лет пять назад я пробовал воспользоваться редактором языков для обучения, но, насколько я помню, даже добавить гласные с диакритиками, изображённые на рисунке выше, я не смог (в наборах символов не было расширенных диапазонов) К сожалению, не помню, какой версией FR я пользовался. Так как в указанной вами статье никаких конкретных иллюстраций, относящихся именно к греческой политонике, нет, остаётся вопрос: действительно ли в десятой/одиннадцатой версии можно создать язык со всем тем набором «двухсот возможных сочетаний», чтобы обучение шаблона смогло заработать?

oibek Sep 20 2011 at 14:36

В текущей версии в редакторе языков я нашел набор под названием «Греческое расширенное письмо», но, к сожалению, включение этих символов в алфавит пользовательского языка не дает результата.

Ради эксперимента попробовал включить в свой язык только эти символы и удалить базовые греческие символы. В этом случае весь текст распознался только цифрами. Т.е. несмотря на наличие расширенного набора программа отказывается их воспринимать. Возможно, я делаю что-то не так. Попробую вечером из дома.

vmb Sep 20 2011 at 14:45

Возможность добавления уже обнадёживает, спасибо. Возможно дело в том, что нужно и правда обучать шаблон, так как по умолчанию программа не видит параллелей между особенной графикой и расширенным символом. Но это очень долго, нужно двигаться буква за буквой, пока весь возможный набор комбинаций не будет перебран. И, к сожалению, для многих книг нужно будет это повторять. Так что не смею больше вас обременять, главное я узнал. Не мучайтесь. Разве что в вас проснётся спортивный интерес и упрямство)

oibek Sep 21 2011 at 09:37

Да, я попробовал обучить программу этим символам. После обучения распознает все верно.

vmb Sep 21 2011 at 09:41

Здорово. Спасибо большое, вам и ABBYY.

KoCMoHaBT61 Sep 20 2011 at 16:50

Интересно, а старую русскую орфографию, отягощённую французскими вставками он распознает?

oibek Sep 20 2011 at 18:00

Отличная идея, дайте пример, протестирую.