Пользуюсь Fine Reader 10 для распознавания текстов в бюро переводов. Что странно, хотя языков номинально и много, но нет некоторых языков СНГ. Вопрос скорее не к автору, но имеет ли смысл обновляться на 11-ю?
Из языков СНГ в расширенном списке (видимо, в ваших терминах «номинально») вижу все возможные, но со словарной поддержкой только следующие: Армянский (Восточный, Грабар, Западный), Башкирский, Иврит, Латышский, Литовский, Русский, Татарский, Украинский, Эстонский.
Ойбек, спасибо за обзор.
А каково разрешение исходных фотографий?
Вариант до устранения трапециевидных искажений очень неплохо читается.
По сути только 2 ошибки («гористоечаются» и «со с то ящ и е»), но это вполне терпимо, учитывая способ съемки.
Размер фото 2592x1936, т.е. разрешение около 235dpi. Это те самые 5 мегапикселей айфона. Насчет способа съемки вы правы, пытался воссоздать атмосферу спешки и отсутствия сосредоточенности.
Спасибо за комментарий. Целью данного топика не являлось сравнение именно этих версий. Но попробую в отдельном топике сравнить их. Что бы вам было интересно, на какую функциональность обратить особое внимание?
По идее по всем позициям, которые выдвигают маркетологи конторы
В частности время работы и точность распознавания сложных таблиц. Вот взять один документ средней паршивости и прогнать в максимально похожих условиях.
Если не ошибаюсь, то в 10й версии при выполнении сценария нельзя было приостановить его работу (в паузу). Здесь это появилось? (при большом числе страниц и слабом компе это проблема)
Я проверил, в момент распознавания есть только кнопка «Остановить». Но если, скажем, распознается 10 страниц, из них 4 уже распознано и в данный момент распознается 5-я, то при остановке процесса эти 4 страницы будут считаться распознанными и в случае повторного запуска процесса распознавания они не будут распознаваться снова, т.е. программа начнет с 5-й страницы. В итоге (из-за отсутствия функции «пауза») вы всего лишь потеряете то время, которое ушло на частичное распознавание 5-й страницы при первоначальном процессе, хотя, возможно, на слабом компьютере и это время существенно.
Можно заметить, что кроме FineReader.exe запускаются ещё FineExec.exe в количестве равном количеству ядер. Процессы эти занимаются добавлением и распознаванием. В результате компьютер нагружен максимально, из-за чего во время работы FR сложно заниматься чем-то ещё. По крайней мере, в FR10 было так.
В FR11 при количестве ядер >3 FineExecов запускается на 1 меньше, чем раньше, что даёт возможность, например, сёрфить интернеты во время работы FR. Так что кнопка «остановить», надеемся, будет нужна ещё меньше, чем нужна была раньше.
А в распознавании языков с диакритиками там ничего не изменилось? Помню, безнадёжной затеей было заставить FineReader распознавать древнегреческий, даже новый язык нельзя было создать со всеми комбинациями юникода «гласная+придыхание/ударение».
У меня сейчас, к сожалению, нет под рукой сканера. Но, может быть, вы сможете сделать снимок экрана и распознать его? Например, начала диалога Платона:
Можете сделать сколько угодно крупный шрифт, там проблема была принципиальная, качество не играло роли, просто все диакритики игнорировались или путались с другими буквами.
Спасибо. В общем, всё как и раньше: есть только новогреческий, с одним видом ударения, к тему и сводятся все диакритики. Жаль, потому что даже в книгах на новых языках древнегреческий встречается очень часто: не только в виде пространных цитат, но и в виде многочисленных вкраплений древнегреческих вариантов терминологии (философской, богословской, лингвистической, психологической, исторической и так далее).
А нельзя ли сейчас создать новый язык и наполнить его расширенной греческой страницей из юникода, со всеми вариантами гласных с диакритиками? Конечно, это довольно утомительное занятие, так что не сомневаясь отказывайтесь, если нет времени, я пойму. И так большое спасибо.
Я не имею никакого отношения к компании ABBYY и провожу тесты добровольно и беспристрастно. Хотя продукт мне нравится. Что касается диакритических знаков, то мне удалось создать копию греческого языка, добавить туда все символы и текст распознался (как мне кажется) правильно. Посмотрите в конце топика.
Да я ведь без всяких претензий и подозрений, простите, если что не так. Да и к компании ABBYY никаких претензий, они ведь в первую очередь учитывают запросы большинства.
К сожалению, почти ничего не изменилось (это, конечно, не ваша вина): ни подписных йот (крючочки под гласными), ни придыханий (такие маленькие скобочки над гласными), ни облечённых или тупых ударений (волнистые линии и ударения, направленные слева направо), ни знаков сокращений (тоже маленькие скобочки, только после букв), ни сочетаний этих знаков так и не появилось, хотя они все есть в тех абзацах оригинала, которые вы выбрали. Всё свелось к новогреческому острому ударению, за незначительным исключением.
На всякий случай, если вина на мне и я плохо объяснил: добавлять нужно было вот эти буквы (они есть не в каждом шрифте, только с расширенным юникодом, и возможно сами механизмы добавления новых знаков в FineReader не позволяют их добавить:
В том то и дело, что лет пять назад я пробовал воспользоваться редактором языков для обучения, но, насколько я помню, даже добавить гласные с диакритиками, изображённые на рисунке выше, я не смог (в наборах символов не было расширенных диапазонов) К сожалению, не помню, какой версией FR я пользовался. Так как в указанной вами статье никаких конкретных иллюстраций, относящихся именно к греческой политонике, нет, остаётся вопрос: действительно ли в десятой/одиннадцатой версии можно создать язык со всем тем набором «двухсот возможных сочетаний», чтобы обучение шаблона смогло заработать?
В текущей версии в редакторе языков я нашел набор под названием «Греческое расширенное письмо», но, к сожалению, включение этих символов в алфавит пользовательского языка не дает результата.
Ради эксперимента попробовал включить в свой язык только эти символы и удалить базовые греческие символы. В этом случае весь текст распознался только цифрами. Т.е. несмотря на наличие расширенного набора программа отказывается их воспринимать. Возможно, я делаю что-то не так. Попробую вечером из дома.
Возможность добавления уже обнадёживает, спасибо. Возможно дело в том, что нужно и правда обучать шаблон, так как по умолчанию программа не видит параллелей между особенной графикой и расширенным символом. Но это очень долго, нужно двигаться буква за буквой, пока весь возможный набор комбинаций не будет перебран. И, к сожалению, для многих книг нужно будет это повторять. Так что не смею больше вас обременять, главное я узнал. Не мучайтесь. Разве что в вас проснётся спортивный интерес и упрямство)
Тестирование ABBYY FineReader 11