Что нового в ABBYY FineReader 11?

    Сегодня выходит ABBYY FineReader 11, и сейчас мы расскажем вам, чем он отличается от десятой версии. Прежде всего, достаточно заметно донастроились алгоритмы поиска на странице текста, картинок и таблиц – то, что у нас называют «Анализ документа», а в мире понятным словом zoning. Главное, к чему мы стремились, работая над новой версией, – улучшить «понимание» документов, с которыми пользователи сталкиваются каждый день: книг, договоров, журналов. Одним из легко заметных изменений стало то, что FineReader 11 научился находить вертикальные колонтитулы.
    image



    Как мы уже сказали, в новом FineReader блоки разных типов определяются более точно – это помогает правильнее «собирать» строки текста. Например, прошлая версия иногда впадала в ступор, видя ультра-модную вёрстку книжек с «авторскими заметками на полях»:
    image


    В результате такого выделения программа считала, что строки из второй колонки – это продолжение строк из первой, и текст выстраивался неправильно.

    Теперь мы знаем о существовании таких книг и сообщили об этом нашему детищу. В результате блоки выделяются правильно.
    image


    Кстати, на приведённых изображениях видно ещё одно продвижение FineReader’а на пути к совершенству – таблицы стали лучше разбиваться на ячейки. В среднем по сравнению с десятой версией количество ошибок разбиения таблиц на ячейки уменьшилось на 25%. Кроме того, ошибок при определении колонтитулов стало меньше на 40%, а картинки и диаграммы «находятся» лучше на 15%. Впрочем, вопрос, как измерять количество ошибок анализа, – довольно тонкий и, возможно, заслужит отдельного внимания. А с таблицами-то всё ясно – мы одной ошибкой считаем или разбиение ячейки на две, или наоборот, объединение двух ячеек в одну.

    Что ещё? Более стабильной стала работа с большими (более 100 файлов) пакетами документов. Теперь они обрабатываются с такой же скоростью, что и отдельные документы.

    Изменения коснулись и обработки сфотографированных документов: лучше работает автоматическое исправление искажений. Кроме того, появился обновленный редактор изображений – в нём можно вручную скорректировать яркость, контрастность, уровни интенсивности света и тени или устранить трапециевидные искажения.

    image


    Улучшилась работа с многостраничными документами – теперь распознанные страницы лучше собираются в единый документ, в котором меньше ненужных делений на секции. Новая версия FineReader правильно определяет размер полей и позиционирование колонтитулов – это позволяет сохранять форматирование при экспорте в формат RTF.
    Изменения коснулись и экспорта в PDF. Для разного типа задач можно использовать три новых режима сохранения – «Наилучшее качество», «Небольшой размер» и «Сбалансированный режим». Эти режимы задают параметры сохранения изображений, которые будут в вашем PDF. Первый режим понадобится вам, если вы хотите, чтобы картинки были высокого качества. Программа сохранит их с разрешением 300 dpi, при сжатии будут использованы форматы без потери качества ZIP, LZW, а также JPEG и J2K с параметром качества 80. Черно-белые изображения обрабатываются при помощи CCITT4 и JBIG2. Второй режим, «Небольшой размер» имеет смысл использовать, если вы сохраняете файл для архива или в других случаях, если важно сэкономить на весе файла. PDF сжат настолько, насколько это возможно при сохранении читаемости документа. Разрешение изображений здесь будет уже 150 dpi, параметр качества JPEG – 50. «Сбалансированный режим» – это своеобразный компромисс между качеством и размером файла: разрешение 300 dpi, параметр качества JPEG – 60. Что касается технологического аспекта, улучшена технология сжатия MRC (о ней мы писали здесь).

    Хорошая новость для пользователей Linux: в FineReader 11 можно сохранять и конвертировать изображения документов и PDF-файлы в формат ODT (OpenOffice.org Writer). Форматирование исходного документа, как обычно, переносятся в новый формат, поэтому тратить время на дополнительное редактирование не придется. Кроме того, появился экспорт в DjVu.

    image


    Ещё FineReader 11 умеет преобразовать бумажные книги в электронные: теперь доступно сохранение результатов распознавания не только в HTML (как это было в «десятке»), но и в форматы Electronic Publication (.ePub) and FictionBook (.fb2), оптимизированные для смартфонов, электронных книг и планшетных компьютеров. Причём сценарий создания электронных книг вынесен в окно «Новая задача», которое появляется при старте программы.

    image


    Усовершенствован редактор стилей документа. Теперь настраивать все параметры стилей можно в одном диалоге, а изменения происходят сразу во всем документе.

    image


    Изменения коснулись и интерфейса. В окно «Новая задача» вынесены функции, которые бывают нужны чаще всего. Кроме того, в Corporate Edition интерфейс можно настроить под себя, добавляя новые сценарии или импортируя созданные другими пользователями.

    image

    Если вы очень торопитесь и хотите распознать документ максимально быстро, можно использовать ещё одну новую функцию – чёрно-белый режим распознавания.

    image


    Разумеется, в этом случае за скорость придётся заплатить возможной потерей качества, но мы постарались сделать так, чтобы цена не была слишком высокой.

    Всё описанное выше, кроме изменений функций в окне «Новая задача», относится к двум версиям – ABBYY FineReader 11 Professional Edition и ABBYY FineReader 11 Corporate Edition. В корпоративной версии в режиме редактирования можно применить функцию удаления конфиденциальной информации – она помечается и при экспорте удаляется.

    image


    Для пользователей корпоративной версии мы подготовили ещё и бонус – программу ABBYY Business Card Reader. Многие из вас уже знакомы с мобильной версией этой программы, теперь она переехала и на десктоп. Отсканировать визитку и загрузить данные в Microsoft Outlook с распределением данных контакта по соответствующим полям можно одной кнопкой, используя предопределенный сценарий работы. Конечно, если необходимо, данные можно проверить и отредактировать.

    image


    Отдельно хочется сказать о работе с языками. У нас наконец-то появилось распознавание арабского языка, причём качество – на уровне конкурентов, а то и выше. Арабский OCR клиенты у нас давно просили, так что получите – распишитесь. Кроме этого, FineReader научился распознавать туркменский (латиница) и вьетнамский. Появилась словарная поддержка для арабского, вьетнамского, японского, двух вариантов корейского и латыни.
    Ещё мы стали быстрее распознавать документы на некоторых азиатских языках: скорость распознавания корейского увеличилась аж на 30% без потери в качестве, японского – на 10%. Наши ребята довольно долго отслеживали, «тонкие места» с помощью разных профайлеров (помимо доморощенных счётчиков-таймеров использовались интеловский VTune и AQTime от AutomatedQA Corp). Такого, чтобы магическим взглядом найти место в коде, которое можно переписать и впятеро ускорить программу у нас по счастью не случалось, а про неделю потраченного времени и ускорение на два процента писать как-то не с руки, так что оставим тему, что там поменяли.

    Мы рассказали вам об основных изменениях в новой версии FineReader, которую уже сейчас можно купить в нашем магазине. Хотите узнать больше — читайте подробнее на сайте ABBYY.

    Ну а если вы хотите попробовать новый FineReader и написать о нем обзор, обозначьтесь в комментах – и мы выдадим вам промо-код. Их у нас три штуки!
    Трое желающих написать обзор уже отметилось в комментариях. Скоро на Хабре!
    ABBYY
    Решения для интеллектуальной обработки информации

    Comments 29

      +2
      вот мля только сейчас дообрабытываю 3600 страничный документ, где вы были раньше???
        –6
          0
          я к тому что в 10 файнридере довольно неблагодарное занятие обрабатывать такой объем информации
            +5
            Мы честно старались, чтобы в следующий раз это не вызвало проблем. Жаль, что не успели конкретно в Вашем случае.
        –9
          0
          Готов попробовать.
            0
            Выслал код в личку
            0
            я могу попробовать новинку и с удовольствием напишу беспристрастную рецензию.
              0
              Выслал код в личку
              0
              Если можно, промо-код. Будем писать обзор.
                0
                Выслал код в личку
                +6
                Собираетесь ли делать экспорт в LaTeX? Пусть даже без распознавания формул.
                  0
                  Лично мне про эти планы неизвестно, но я очень удивлён, что есть потребность экспорта в LaTeX без формул.
                  Скажите, а для какого рода задач это нужно?
                    +1
                    Для тех же, что и экспорт в MsWord, но для людей, которые MsOffice не пользуются. Кое в чём было бы очень легко, те же маргиналии поддерживаются LaTeX на уровне стандартных классов. Пример задач — материалы к докладу по философии, подготовка брошюры о ядовитых пауках, оцифровка всяких брошюрок с неудачной вёрсткой, которые потом можно распечатать более читабельно…
                  +10
                  Есть ли планы быть доступными в «Платное ПО» Ubuntu?
                  Было бы удобно покупать и устанавливать «CLI OCR for Linux» средствами Ubuntu.
                  Есть ли планы сделать для Linux полную версию?
                  спасибо
                    –2
                    Учитывая, что движок FineReader давно есть и в версии для Linux, то задача, впринципе, нехитрая. Переделать интерфейс под какой-нибудь Qt… Был бы сразу и Win, и Mac, и много чего другого.
                    Другое дело, что пользователей Linux, видимо, по-прежнему считают нищебродами и аутсайдерами.
                    +7
                    Присоединяюсь к вопросам насчёт версии для Linux и ещё мучает такой вопрос. Когда всё так хорошо как на примерах, то и «старая» 10 версия вполне справлась. А вот как с распознаванием на сгибе книги, где падает контраст изображения, строки «заворачиваются»? В 10 версии было ещё достаточно печально (хоть и получше, чем в 7 версии). Хотелось бы примерчики увидеть.
                      +2
                      В границах распознования текста хотелось бы видеть не прямые линии, а кривые (хотя бы верхнюю и нижнюю), чтобы задать кривизну разворота книги. Это можно добиться, например, относительно границ страницы (легче), а не текста (чуть сложнее). Так текст и таблицы будут более качественно распознаваться.
                        +3
                        Почти как вопрос к путину — когда формулы хотя бы картинками станут при анализе документа?

                        P.S. У людоедов есть слои? У формул есть общие черты?

                        Чёт накипело. Извините. Вы — лучшие.
                          0
                          Спасибо.
                          Когда за формулы возьмёмся — пока не знаем.
                          Вообще задача интересная. Жаль, неденежная ;)
                            +1
                            Если формулы разбирать — дебет с кредитом не сойдутся. А если их как картинки помечать? Подавляющее число научных трудов используют в схожий формат, да и язык один )))

                            … хотя «Жаль, неденежная» — к сожалению, исчерпывающий ответ (((

                            С помощью программы FineReader 11 удалось полностью оцифровать все практические пособия по водоснабжению и вентиляции! Теперь дети Уранги на 40% меньше болеют дизентерией. Понесло, пардон.
                          0
                          Пакетной обработки, смотрю, так и не появилось :) в девятой версии колхозил автоИТ и какой-то сатанизм с питоном, десятая была корп, с глючным хотфолдером, который падал на больших документах. Как в 11?

                          Распознавание у вас — лучшее, а вот автоматизация — увы…

                          Привет Герману :)
                            0
                            вам, наверное, стоит лицензировать FineReader Engine и играться как душа пожелает
                            для экспериментов можно в варезе найти не очень свежую версию
                            +1
                            Сколько можно динамить пользователей Linux?

                            За ODT конечно же большое человеческое спасибо. Вот только когда поддержка ODT будет в FineReader Online?
                              0
                              Как только FineReader Online переедет на технологии, используемые в FineReader 11. Мы уже работаем над этим!
                              0
                              Появилась ли поддержка распознавания иврита?
                                +2
                                А она и в десятке уже была насколько я помню. В 11 тоже есть.
                                +1
                                Когда можно ожидать данную версию в редакции Home?
                                Спасибо.
                                  0
                                  «редакция home» для большинства — это пиратская professional :))

                                Only users with full accounts can post comments. Log in, please.