Хочу пробросить мостик между темой индексации в этой статье и вопросом про OCR из комментария Станислава. А так же поспорить с автором относительно невозможности решения рассматриваемой задачи.
Что за чем и почему?
OCR позволяет извлечь текст с изображения документа, по возможности без ошибок и изменений, в этом ценность OCR. Технология довольно зрелая, на современных сканах и документах требует исправлений менее 1% символов.
Над OCR можно надстроить слой «извлечения данных». Здесь и живет хитрая логика нормализации извлеченного текста (удаление незначащей пунктуации, замена одних аббревиатур на другие, проверка согласованности данных на документе, исправление ошибок OCR). Данная задача решена в промышленных масштабах, насколько мне известно, для счетов, чеков и визиток. Для прочих типов всегда требуется этап подготовки.
И, наконец, индексация: какие мета-данные приложить к изображению. При всей своей неоднозначности, задача часто решается путем шаблонов лучших практик. В крайнем случае требуется доводка напильником по месту.
А есть ли готовое решение? Станислав упоминает программу RasterID, одной из функций которой, как следует из описания, является поиск и извлечение данных из штампов на документе. Опыта пользования этим приложением у меня нет, потому свое мнение я основываю на богатом опыте изучения сценариев использования FineReader OCR SDK. Очевидно, что RasterID предлагает возможность автоматизировать процесс поиска и извлечения данных из штампа, а так же отправки извлеченных данных в CMS. Однако чтобы решить задачу в общем виде, как ее понимает автор данной статьи, указанному приложению не будет хватать пары вещей:
1. Распознавания рукописных символов. Мне известны несколько производителей, которые продают системы распознавания рукописного текста.
2. Нормализации данных на штампе. Не секрет, что места на штампе мало и сокращения на нем сплошь и рядом. А каждая организация, не говоря уже об индивидах, сокращает по-своему. Без ручного труда, по крайней мере пока, не обойтись: нужно настроить словарь замен и подстановок.
На мой взгляд, оба пункта вполне решаемы уже сейчас.
Потому я не согласен с автором, что "работа по индексации чертежей большого формата не может быть автоматизирована", но должен согласиться, что "программ для такой автоматизации нет и, возможно, никогда не появится." Современные чертежи имеют электронную копию с необходимыми метаданными с самого рождения, а оцифровка архивов, как правило, выполняется один раз в рамках проекта, и число этих проектов ограничено. Кто будет серьезно вкладываться в ПО, которому суждено умереть через пару лет?
Вот выдержка из стандарта, касающаяся 5-9 классов:
11) формирование представления об основных изучаемых понятиях: информация, алгоритм, модель – и их свойствах;
12) развитие алгоритмического мышления, необходимого для профессиональной деятельности в современном обществе; развитие умений составить и записать алгоритм для конкретного исполнителя; формирование знаний об алгоритмических конструкциях, логических значениях и операциях; знакомство с одним из языков программирования и основными алгоритмическими структурами — линейной, условной и циклической;
13) формирование умений формализации и структурирования информации, умения выбирать способ представления данных в соответствии с поставленной задачей — таблицы, схемы, графики, диаграммы, с использованием соответствующих программных средств обработки данных;
14) формирование навыков и умений безопасного и целесообразного поведения при работе с компьютерными программами и Интернете, умения соблюдать нормы информационной этики и права
А вот это уже интересно, поскольку мы тестировали в т.ч. и на 4-ке с такой же версией ОС.
vasilykharitonov, я вам в личку скину свой e-mail, если вас не затруднит, пришлите, пожалуйста, что/как снимали и если возможно, сделайте плз скриншот видоискателя, когда вы фотографируете некоторый текст. Будем разбираться!
А пока могу лишь предположить, что вы снимали в ландшафтном режиме, а интерфейс программы у вас не «перевернулся», т.е. TextGrabber «не понял», что вы держите телефон горизонтально.
Чтобы все работало, окошко видоискателя должно выглядит так:
, т.е для корректной работы приложения языки распознавания, кроп, фонарик и название продукта всегда должны быть в верхней части экрана.
Нет, iPod touch не поддерживается, потому что те камеры, которые устанавливает Apple в плеерах, не могут обеспечить приемлемого для OCR качества. По этой же причине не поддерживаем iPad 2.
Под Symbian 9.3 — вряд ли, просто потому что Нокиа уже не поддерживает эту ОС, а все планы связывает с WP7 и отчасти с семейством на базе Symbian^3.
Если интересует перевод, то мы можем предложить другое приложение. Это конечно не текстграббер, тексты извлекать не умеет, но для пословного перевода подойдет.
Под андройд могу сказать, что точно выпустим Lingvo, сейчас готовимся к бета-тестированию. Про текстграббер для Android ещё не думали, но все может быть. Не будем загадывать, но пожелание на заметку примем =)
Что касается сканирования чеков, то тут как раз думали, но пока о какой либо разработке говорить не приходится.
Что за чем и почему?
OCR позволяет извлечь текст с изображения документа, по возможности без ошибок и изменений, в этом ценность OCR. Технология довольно зрелая, на современных сканах и документах требует исправлений менее 1% символов.
Над OCR можно надстроить слой «извлечения данных». Здесь и живет хитрая логика нормализации извлеченного текста (удаление незначащей пунктуации, замена одних аббревиатур на другие, проверка согласованности данных на документе, исправление ошибок OCR). Данная задача решена в промышленных масштабах, насколько мне известно, для счетов, чеков и визиток. Для прочих типов всегда требуется этап подготовки.
И, наконец, индексация: какие мета-данные приложить к изображению. При всей своей неоднозначности, задача часто решается путем шаблонов лучших практик. В крайнем случае требуется доводка напильником по месту.
А есть ли готовое решение?
Станислав упоминает программу RasterID, одной из функций которой, как следует из описания, является поиск и извлечение данных из штампов на документе. Опыта пользования этим приложением у меня нет, потому свое мнение я основываю на богатом опыте изучения сценариев использования FineReader OCR SDK. Очевидно, что RasterID предлагает возможность автоматизировать процесс поиска и извлечения данных из штампа, а так же отправки извлеченных данных в CMS. Однако чтобы решить задачу в общем виде, как ее понимает автор данной статьи, указанному приложению не будет хватать пары вещей:
1. Распознавания рукописных символов. Мне известны несколько производителей, которые продают системы распознавания рукописного текста.
2. Нормализации данных на штампе. Не секрет, что места на штампе мало и сокращения на нем сплошь и рядом. А каждая организация, не говоря уже об индивидах, сокращает по-своему. Без ручного труда, по крайней мере пока, не обойтись: нужно настроить словарь замен и подстановок.
На мой взгляд, оба пункта вполне решаемы уже сейчас.
Потому я не согласен с автором, что "работа по индексации чертежей большого формата не может быть автоматизирована", но должен согласиться, что "программ для такой автоматизации нет и, возможно, никогда не появится." Современные чертежи имеют электронную копию с необходимыми метаданными с самого рождения, а оцифровка архивов, как правило, выполняется один раз в рамках проекта, и число этих проектов ограничено. Кто будет серьезно вкладываться в ПО, которому суждено умереть через пару лет?
Дмитрий.
11) формирование представления об основных изучаемых понятиях: информация, алгоритм, модель – и их свойствах;
12) развитие алгоритмического мышления, необходимого для профессиональной деятельности в современном обществе; развитие умений составить и записать алгоритм для конкретного исполнителя; формирование знаний об алгоритмических конструкциях, логических значениях и операциях; знакомство с одним из языков программирования и основными алгоритмическими структурами — линейной, условной и циклической;
13) формирование умений формализации и структурирования информации, умения выбирать способ представления данных в соответствии с поставленной задачей — таблицы, схемы, графики, диаграммы, с использованием соответствующих программных средств обработки данных;
14) формирование навыков и умений безопасного и целесообразного поведения при работе с компьютерными программами и Интернете, умения соблюдать нормы информационной этики и права
Стандарт для 10-11 классов пока не утвержден.
vasilykharitonov, я вам в личку скину свой e-mail, если вас не затруднит, пришлите, пожалуйста, что/как снимали и если возможно, сделайте плз скриншот видоискателя, когда вы фотографируете некоторый текст. Будем разбираться!
А пока могу лишь предположить, что вы снимали в ландшафтном режиме, а интерфейс программы у вас не «перевернулся», т.е. TextGrabber «не понял», что вы держите телефон горизонтально.
Чтобы все работало, окошко видоискателя должно выглядит так:
, т.е для корректной работы приложения языки распознавания, кроп, фонарик и название продукта всегда должны быть в верхней части экрана.
Вот прямая ссылка на приложение — http://itunes.apple.com/ru/app/textgrabber/id438475005?mt=8
Если интересует перевод, то мы можем предложить другое приложение. Это конечно не текстграббер, тексты извлекать не умеет, но для пословного перевода подойдет.
Что касается сканирования чеков, то тут как раз думали, но пока о какой либо разработке говорить не приходится.