Мы продолжаем рассказывать о продуктах комплекса ABBYY FlexiCapure – системы потокового ввода данных. Ранее мы писали об ABBYY FlexiLayout Studio, предназначенной для создания разметок слабо структурированных документов. Сегодня речь пойдет о программе ABBYY FormDesigner.

Как несложно догадаться из названия, она предназначена для разработки макетов с жесткой разметкой, например, тестов или бланков заявлений – шаблонов, в которые в последующем вносится информация по определенным правилам. Казалось бы, зачем для этого специальное приложение? Ведь существует множество программ, позволяющих это делать, от профессиональных полиграфических комплексов до MS Word и MS Visio, даже в простейшем Paint – и то можно нарисовать. Под катом мы расскажем, почему удобно и правильно рисовать формы в ABBYY FormDesigner и как это делается.

Так в чем же особенности ABBYY FormDesigner, почему стоит использовать именно его? Что ни говори, большинство редакторов предназначено для решения других задач. Можно забивать гвозди топором, но молотком удобнее. В случае с ABBYY FormDesigner это подразумевает не только удобный интерфейс пользователя, но и возможность использовать элементы, трудно- или вообще недоступные в других редакторах, например, штрих-коды и группы меток. Даже простейшие поля ввода текста или даты, которые в ABBYY FormDesigner создаются двумя кликами мышки и при этом получаются ровными и четкими, рисовать с тем же качеством вручную – то еще удовольствие. И не будем забывать о совместимости – поскольку ABBYY FormDesigner разрабатывается той же командой, что и флагман, ABBYY FlexiCapture, то вполне ожидаемо, что созданные в нем макеты можно легко туда экспортировать.

Но самое главное – придумали эту программу для создания не просто макетов, а именно форм, которые впоследствии будут сканироваться и распознаваться. Поэтому в нем есть возможность проверить шаблон на машиночитаемость и получить список недочетов, которые будут мешать правильному распознаванию.

Ну а теперь – знакомиться. Вот как выглядит наш герой:



В качестве примера выбрана форма вступительного теста на внутренние курсы английского языка в нашей компании. По центру – основное окно с редактируемым макетом: в верхней части название, под ним текстовое поле ввода для фамилии, ниже – отметка о желании изучать бизнес-терминологию и дата заполнения, далее группа меток, содержащая вопросы и возможные ответы на них. Черные квадраты в углах – реперы, один из тех самых способов повышения машиночитаемости формы. Именно с помощью реперов при обработке отсканированных документов определяются и исправляются такие дефекты, как перекосы и искажения.

Сверху – панели инструментов, позволяющие работать с файлами, управлять отображением и форматированием элементов формы. Слева – панель элементов, позволяющая двумя кликами мыши создавать нужные элементы: сверху под курсором поля для ввода данных четырех различных типов, текст (в примере формы – Фамилия), дата (в примере – Дата заполнения), затем числовое поле и метка (Business English). Далее инструмент группировки, под ним – четыре кнопки для добавления таблиц, вертикальных или горизонтальных разделителей в них и для удаления разделителей. Ниже четыре статических элемента: текст, разделитель, рамка и картинка. Дальше – репер (черные квадраты либо уголки) и штрих-код. И в конце самый сложный элемент, который, в отличие от других, создается с помощью специального мастера: группа меток (на форме – собственно набор вопросов и ответов).

Справа – панель структуры документов, в которой отображаются поля ввода данных, под ней – свойства выбранного элемента (на рисунке – поля ввода фамилии). В зависимости от типа элемента доступны разные свойства, например, для полей ввода можно указать тип разметки текста (гребенка, рамки, изолированные рамки) и цвет фона, для ввода чисел и даты – еще и формат, для ввода текста можно указать фоновую подсказку. Для метки – форму (квадрат или круг), размер, расположение относительно подписи. Для штрих-кода можно выбрать тип и способ отображения: с цифрами или без.

Ну и одна из самых важных функций – проверка формы. Чтобы все данные извлекались из формы правильно, ABBYY FormDesigner проверяет, не выходит ли элемент за отступы формы, правильно ли оформлены разделители элементов, содержит ли форма элементы, позволяющие находить и корректировать искажения (реперы, разделители или статический текст) и их местоположение, взаимное расположение элементов: не перекрываются ли они, не находятся ли слишком близко друг к другу, наличие на форме идентификатора и т. д. Например, заголовок формы, приведенный на рисунке, содержит следующие ошибки, мешающие правильному распознаванию:


  • Рамка вокруг метки Главная слишком маленькая, сама метка находится близко к тексту.
  • Метки Господин и Госпожа находятся близко к полям ввода фамилии и имени.
  • Репер находится не на месте: четыре репера должны указывать вершины прямоугольного поля формы, остальные находятся на сторонах этого прямоугольника.

Вот как должен выглядеть заголовок формы для успешного извлечения информации:



А еще ABBYY FormDesigner умеет создавать электронные формы. Но это уже совсем другая история…

Павел Соколов
Департамент продуктов для ввода данных