Pull to refresh

Comments 27

Пользуюсь Fine Reader 10 для распознавания текстов в бюро переводов. Что странно, хотя языков номинально и много, но нет некоторых языков СНГ. Вопрос скорее не к автору, но имеет ли смысл обновляться на 11-ю?
Из языков СНГ в расширенном списке (видимо, в ваших терминах «номинально») вижу все возможные, но со словарной поддержкой только следующие: Армянский (Восточный, Грабар, Западный), Башкирский, Иврит, Латышский, Литовский, Русский, Татарский, Украинский, Эстонский.
Ойбек, спасибо за обзор.
А каково разрешение исходных фотографий?
Вариант до устранения трапециевидных искажений очень неплохо читается.
По сути только 2 ошибки («гористоечаются» и «со с то ящ и е»), но это вполне терпимо, учитывая способ съемки.
Размер фото 2592x1936, т.е. разрешение около 235dpi. Это те самые 5 мегапикселей айфона. Насчет способа съемки вы правы, пытался воссоздать атмосферу спешки и отсутствия сосредоточенности.
Онлайн-сервис распознавания с постраничной оплатой у ABBYY вообще то есть.
Лучше бы сравнили по каждому из улучшений с 10й версией. Что сложного? А так это абстракция
Спасибо за комментарий. Целью данного топика не являлось сравнение именно этих версий. Но попробую в отдельном топике сравнить их. Что бы вам было интересно, на какую функциональность обратить особое внимание?
По идее по всем позициям, которые выдвигают маркетологи конторы

В частности время работы и точность распознавания сложных таблиц. Вот взять один документ средней паршивости и прогнать в максимально похожих условиях.

Если не ошибаюсь, то в 10й версии при выполнении сценария нельзя было приостановить его работу (в паузу). Здесь это появилось? (при большом числе страниц и слабом компе это проблема)
Я проверил, в момент распознавания есть только кнопка «Остановить». Но если, скажем, распознается 10 страниц, из них 4 уже распознано и в данный момент распознается 5-я, то при остановке процесса эти 4 страницы будут считаться распознанными и в случае повторного запуска процесса распознавания они не будут распознаваться снова, т.е. программа начнет с 5-й страницы. В итоге (из-за отсутствия функции «пауза») вы всего лишь потеряете то время, которое ушло на частичное распознавание 5-й страницы при первоначальном процессе, хотя, возможно, на слабом компьютере и это время существенно.
Можно заметить, что кроме FineReader.exe запускаются ещё FineExec.exe в количестве равном количеству ядер. Процессы эти занимаются добавлением и распознаванием. В результате компьютер нагружен максимально, из-за чего во время работы FR сложно заниматься чем-то ещё. По крайней мере, в FR10 было так.

В FR11 при количестве ядер >3 FineExecов запускается на 1 меньше, чем раньше, что даёт возможность, например, сёрфить интернеты во время работы FR. Так что кнопка «остановить», надеемся, будет нужна ещё меньше, чем нужна была раньше.
Что касается сравнения, то, как только выйдет возможность, обязательно протестирую и напишу.
А в распознавании языков с диакритиками там ничего не изменилось? Помню, безнадёжной затеей было заставить FineReader распознавать древнегреческий, даже новый язык нельзя было создать со всеми комбинациями юникода «гласная+придыхание/ударение».
Пришлите, пожалуйста, картинку, я ее распознаю и опубликую результаты.
У меня сейчас, к сожалению, нет под рукой сканера. Но, может быть, вы сможете сделать снимок экрана и распознать его? Например, начала диалога Платона:

el.wikisource.org/wiki/%CE%A6%CE%B1%CE%AF%CE%B4%CF%89%CE%BD

Можете сделать сколько угодно крупный шрифт, там проблема была принципиальная, качество не играло роли, просто все диакритики игнорировались или путались с другими буквами.
Я распознал текст, а результаты выложил в P.S. топика.
Спасибо. В общем, всё как и раньше: есть только новогреческий, с одним видом ударения, к тему и сводятся все диакритики. Жаль, потому что даже в книгах на новых языках древнегреческий встречается очень часто: не только в виде пространных цитат, но и в виде многочисленных вкраплений древнегреческих вариантов терминологии (философской, богословской, лингвистической, психологической, исторической и так далее).

А нельзя ли сейчас создать новый язык и наполнить его расширенной греческой страницей из юникода, со всеми вариантами гласных с диакритиками? Конечно, это довольно утомительное занятие, так что не сомневаясь отказывайтесь, если нет времени, я пойму. И так большое спасибо.
Я не имею никакого отношения к компании ABBYY и провожу тесты добровольно и беспристрастно. Хотя продукт мне нравится. Что касается диакритических знаков, то мне удалось создать копию греческого языка, добавить туда все символы и текст распознался (как мне кажется) правильно. Посмотрите в конце топика.
Да я ведь без всяких претензий и подозрений, простите, если что не так. Да и к компании ABBYY никаких претензий, они ведь в первую очередь учитывают запросы большинства.

К сожалению, почти ничего не изменилось (это, конечно, не ваша вина): ни подписных йот (крючочки под гласными), ни придыханий (такие маленькие скобочки над гласными), ни облечённых или тупых ударений (волнистые линии и ударения, направленные слева направо), ни знаков сокращений (тоже маленькие скобочки, только после букв), ни сочетаний этих знаков так и не появилось, хотя они все есть в тех абзацах оригинала, которые вы выбрали. Всё свелось к новогреческому острому ударению, за незначительным исключением.

На всякий случай, если вина на мне и я плохо объяснил: добавлять нужно было вот эти буквы (они есть не в каждом шрифте, только с расширенным юникодом, и возможно сами механизмы добавления новых знаков в FineReader не позволяют их добавить:

image

Большое спасибо за ваше время.
В том то и дело, что лет пять назад я пробовал воспользоваться редактором языков для обучения, но, насколько я помню, даже добавить гласные с диакритиками, изображённые на рисунке выше, я не смог (в наборах символов не было расширенных диапазонов) К сожалению, не помню, какой версией FR я пользовался. Так как в указанной вами статье никаких конкретных иллюстраций, относящихся именно к греческой политонике, нет, остаётся вопрос: действительно ли в десятой/одиннадцатой версии можно создать язык со всем тем набором «двухсот возможных сочетаний», чтобы обучение шаблона смогло заработать?
В текущей версии в редакторе языков я нашел набор под названием «Греческое расширенное письмо», но, к сожалению, включение этих символов в алфавит пользовательского языка не дает результата.

Ради эксперимента попробовал включить в свой язык только эти символы и удалить базовые греческие символы. В этом случае весь текст распознался только цифрами. Т.е. несмотря на наличие расширенного набора программа отказывается их воспринимать. Возможно, я делаю что-то не так. Попробую вечером из дома.
Возможность добавления уже обнадёживает, спасибо. Возможно дело в том, что нужно и правда обучать шаблон, так как по умолчанию программа не видит параллелей между особенной графикой и расширенным символом. Но это очень долго, нужно двигаться буква за буквой, пока весь возможный набор комбинаций не будет перебран. И, к сожалению, для многих книг нужно будет это повторять. Так что не смею больше вас обременять, главное я узнал. Не мучайтесь. Разве что в вас проснётся спортивный интерес и упрямство)
Да, я попробовал обучить программу этим символам. После обучения распознает все верно.
Здорово. Спасибо большое, вам и ABBYY.
Интересно, а старую русскую орфографию, отягощённую французскими вставками он распознает?
Отличная идея, дайте пример, протестирую.
Sign up to leave a comment.

Articles