Комментарии / Профиль ContentAI

Пользователь

ПрофильСтатьи153ПостыНовости3Комментарии337

Данные о метаданных: к вопросу об индексировании технических чертежей

ContentAI_Team 19 дек 2011 в 08:58

Хочу пробросить мостик между темой индексации в этой статье и вопросом про OCR из комментария Станислава. А так же поспорить с автором относительно невозможности решения рассматриваемой задачи.

Что за чем и почему?
OCR позволяет извлечь текст с изображения документа, по возможности без ошибок и изменений, в этом ценность OCR. Технология довольно зрелая, на современных сканах и документах требует исправлений менее 1% символов.

Над OCR можно надстроить слой «извлечения данных». Здесь и живет хитрая логика нормализации извлеченного текста (удаление незначащей пунктуации, замена одних аббревиатур на другие, проверка согласованности данных на документе, исправление ошибок OCR). Данная задача решена в промышленных масштабах, насколько мне известно, для счетов, чеков и визиток. Для прочих типов всегда требуется этап подготовки.

И, наконец, индексация: какие мета-данные приложить к изображению. При всей своей неоднозначности, задача часто решается путем шаблонов лучших практик. В крайнем случае требуется доводка напильником по месту.

А есть ли готовое решение?
Станислав упоминает программу RasterID, одной из функций которой, как следует из описания, является поиск и извлечение данных из штампов на документе. Опыта пользования этим приложением у меня нет, потому свое мнение я основываю на богатом опыте изучения сценариев использования FineReader OCR SDK. Очевидно, что RasterID предлагает возможность автоматизировать процесс поиска и извлечения данных из штампа, а так же отправки извлеченных данных в CMS. Однако чтобы решить задачу в общем виде, как ее понимает автор данной статьи, указанному приложению не будет хватать пары вещей:

1. Распознавания рукописных символов. Мне известны несколько производителей, которые продают системы распознавания рукописного текста.

2. Нормализации данных на штампе. Не секрет, что места на штампе мало и сокращения на нем сплошь и рядом. А каждая организация, не говоря уже об индивидах, сокращает по-своему. Без ручного труда, по крайней мере пока, не обойтись: нужно настроить словарь замен и подстановок.

На мой взгляд, оба пункта вполне решаемы уже сейчас.

Потому я не согласен с автором, что "работа по индексации чертежей большого формата не может быть автоматизирована", но должен согласиться, что "программ для такой автоматизации нет и, возможно, никогда не появится." Современные чертежи имеют электронную копию с необходимыми метаданными с самого рождения, а оцифровка архивов, как правило, выполняется один раз в рамках проекта, и число этих проектов ограничено. Кто будет серьезно вкладываться в ПО, которому суждено умереть через пару лет?

Дмитрий.

Госпоиск состоялся: по Рунету начал ходить бот электронного правительства или госпоисковика

ContentAI_Team 5 дек 2011 в 12:47

ABBYY к этому отношения не имеет. Если б это был наш паук, он ползал бы быстрее и более ловко :)

Школьные учителя информатики и ABBYY обменялись опытом

ContentAI_Team 22 ноя 2011 в 14:09

Вот выдержка из стандарта, касающаяся 5-9 классов:

11) формирование представления об основных изучаемых понятиях: информация, алгоритм, модель – и их свойствах;
12) развитие алгоритмического мышления, необходимого для профессиональной деятельности в современном обществе; развитие умений составить и записать алгоритм для конкретного исполнителя; формирование знаний об алгоритмических конструкциях, логических значениях и операциях; знакомство с одним из языков программирования и основными алгоритмическими структурами — линейной, условной и циклической;
13) формирование умений формализации и структурирования информации, умения выбирать способ представления данных в соответствии с поставленной задачей — таблицы, схемы, графики, диаграммы, с использованием соответствующих программных средств обработки данных;
14) формирование навыков и умений безопасного и целесообразного поведения при работе с компьютерными программами и Интернете, умения соблюдать нормы информационной этики и права

Стандарт для 10-11 классов пока не утвержден.

Поддержка Windows Azure в продуктах ABBYY для разработчиков

ContentAI_Team 7 ноя 2011 в 10:32

Рады, что понравилась )

НЛО прилетело и опубликовало эту надпись здесь

Новая версия ABBYY TextGrabber: два в одном

ContentAI_Team 5 окт 2011 в 08:15

А вот это уже интересно, поскольку мы тестировали в т.ч. и на 4-ке с такой же версией ОС.

vasilykharitonov, я вам в личку скину свой e-mail, если вас не затруднит, пришлите, пожалуйста, что/как снимали и если возможно, сделайте плз скриншот видоискателя, когда вы фотографируете некоторый текст. Будем разбираться!

А пока могу лишь предположить, что вы снимали в ландшафтном режиме, а интерфейс программы у вас не «перевернулся», т.е. TextGrabber «не понял», что вы держите телефон горизонтально.

Чтобы все работало, окошко видоискателя должно выглядит так:

, т.е для корректной работы приложения языки распознавания, кроп, фонарик и название продукта всегда должны быть в верхней части экрана.

Новая версия ABBYY TextGrabber: два в одном

ContentAI_Team 30 сен 2011 в 09:29

Смотрите ответ на первый коммент. А вообще, уже начинаем всерьез подумывать=)

Новая версия ABBYY TextGrabber: два в одном

ContentAI_Team 30 сен 2011 в 09:25

Уточните, пожалуйста, каким устройством делали фотки? Какая версия iOS?

Новая версия ABBYY TextGrabber: два в одном

ContentAI_Team 30 сен 2011 в 09:23

Нет, iPod touch не поддерживается, потому что те камеры, которые устанавливает Apple в плеерах, не могут обеспечить приемлемого для OCR качества. По этой же причине не поддерживаем iPad 2.

Вот прямая ссылка на приложение — http://itunes.apple.com/ru/app/textgrabber/id438475005?mt=8

Новая версия ABBYY TextGrabber: два в одном

ContentAI_Team 30 сен 2011 в 09:16

Под Symbian 9.3 — вряд ли, просто потому что Нокиа уже не поддерживает эту ОС, а все планы связывает с WP7 и отчасти с семейством на базе Symbian^3.

Если интересует перевод, то мы можем предложить другое приложение. Это конечно не текстграббер, тексты извлекать не умеет, но для пословного перевода подойдет.

Новая версия ABBYY TextGrabber: два в одном

ContentAI_Team 30 сен 2011 в 09:12

Под Bada пока что выпускать не планируем, но пожелание учтем обязательно

Новая версия ABBYY TextGrabber: два в одном

ContentAI_Team 30 сен 2011 в 09:10

До конца этого года планов выпускать похожий продукт нет, а вот в следующем году вполне возможно =)

Новая версия ABBYY TextGrabber: два в одном

ContentAI_Team 30 сен 2011 в 09:08

Под андройд могу сказать, что точно выпустим Lingvo, сейчас готовимся к бета-тестированию. Про текстграббер для Android ещё не думали, но все может быть. Не будем загадывать, но пожелание на заметку примем =)
Что касается сканирования чеков, то тут как раз думали, но пока о какой либо разработке говорить не приходится.

Из пыльного архива в Интернет: как ABBYY Recognition Server оцифровывает библиотеки

ContentAI_Team 13 сен 2011 в 11:47

Спасибо!

Из пыльного архива в Интернет: как ABBYY Recognition Server оцифровывает библиотеки

ContentAI_Team 13 сен 2011 в 11:32

Результат проекта в Литве

1 2 ...

5 6

8 9 ...

16 17