Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

reCAPTCHA: дополнительная польза от борьбы со спамом.

Разработка веб-сайтов *
Сотрудники Carnegie Mellon University подсчитали, что ежедневно по всему миру люди заполняют 60 миллионов каптч. Приняв время заполнения каптчи за 10 секунд, получаем более 160 000 человекочасов (или около 19-ти ЛЕТ!) за день.
И они решили попытаться хотя бы малую часть пропадающих зазря усилий направить на полезное дело, а именно — на распознавание книг.
Суть их идеи такова: на реКАПТЧЕ даются ДВА идущих подряд слова из книги, одно из которых система распознания текста не осилила. реКАПТЧА проверяет известное слово, а вариант распознания неизвестного добавляет в свою базу. Оба этих слова задисторчены обыкновенными и специальными каптча-фильтрами, чтобы пользователь не схалявил, предложив вариант «упячка», к примеру.
Демо и подробности тут:


Университет предлагает готовые решения для форумов/блогов/почты. ИМХО если технология найдет свое применение, вебдваноль наконец сотворит что-то действительно полезное.
Всего голосов 54: ↑51 и ↓3 +48
Просмотры 2.3K
Комментарии 58

Cognitive PDF/A – технология оцифровки текстовых документов для публикации в интернете и долговременного архивного хранения

Блог компании Cognitive Technologies Алгоритмы *

Привет Хабр!


Мы продолжаем публикации о технологиях оптического распознавания (OCR, ICR) и понимания документов, разработанных специалистами компании Cognitive Technologies. Сегодня наш рассказ о технологиях оцифровки текстовых документов Cognitive PDF/A.

В бизнес-сфере достаточно часто приходится сканировать бумажные документы с целью последующей пересылки по электронной почте или архивного хранения. При качественном сканировании получившиеся изображения-образы зачастую оказываются достаточно большого размера. Например, документ формата А4, отсканированный в цветном режиме при разрешении 300 DPI, имеет размер порядка 25 Мб. Использование файлов таких больших размеров неэффективно в электронных архивах, поэтому все больший интерес обретают технологии сжатия получившихся электронных образов. Классические технологии сжатия изображений (JPEG, RLE, Deflate и т.п.) не применимы, так как в общем случае документы могут содержать как монохромный текст, так и полноцветные графические области. Алгоритмы сжатия изображений без потерь, результативные для монохромных текстов, неэффективны для полноцветной графики, в то время как сжатие с потерями демонстрирует высокие показатели для цветных изображений, однако сильно искажает текстовую информацию (Рис. 1). Поэтому обычно для сжатия изображений такого типа используют комбинированный подход.

image
Читать дальше →
Всего голосов 26: ↑17 и ↓9 +8
Просмотры 11K
Комментарии 9

Распознавание гильоширных элементов на примере паспорта РФ

Блог компании Cognitive Technologies Алгоритмы *
Гильош – это специальная технология защиты банкнот, документов, ценных бумаг и других видов полиграфической продукции (билетов, акцизных марок, сертификатов и многих других документов государственного масштаба).

Защита документов обеспечивается путем нанесения на бланки сложных композиций различных гильоширных элементов. Гильоширный элемент представляет собой замысловатый рисунок из множества многократно пересекающихся тончайших кружевных линий (рисунок 1). Обычно такие элементы представлены разного рода защитными сетками, розеттами, бордюрами, виньетками и уголками. Гильош может быть как симметричным, так и асимметричным по своему дизайну.

Согласно существующим нормативам, гильоширные элементы должны занимать не менее 70% площади ценных бумаг.
Причем из этой площади большая часть должна содержать многоцветные гильоширные композиции.

Читать дальше →
Всего голосов 61: ↑57 и ↓4 +53
Просмотры 30K
Комментарии 7

PassportVision — простой способ распознавать документы

Блог компании Enterra Разработка веб-сайтов *
Наверняка вам доводилось попадать в такую ситуацию: заходите в какое-нибудь учреждение (почта, банк, больница, кассы и т. п.), где для достижения ваших целей необходимо предъявить паспорт. И вроде очередь-то небольшая, всего 5 человек, но ждать придётся очень долго, ведь тётя Маша тратит по несколько минут на внесение данных с каждого паспорта в компьютер. Вам остаётся только наблюдать, как её указательный палец не спеша планирует над клавиатурой в поисках очередной клавиши.

Мы были озадачены такой печальной ситуацией в современном обществе и написали программку PassportVision, которая умеет распознавать данные с разных документов и отдавать результат пользователю в удобной форме. Задача оказалась совсем не такой простой, как может показаться на первый взгляд: в ходе работы над проектом мы узнали очень много нового про отечественные документы, компьютерное зрение и пользовательские интерфейсы. Голова уже полна новыми идеями о дальнейшем развитии программы, но мы решили найти время, чтобы поделиться опытом и полученными знаниями.



Сегодня в выпуске:
  • Популярные заблуждения о паспортах
  • Немного об используемых технологиях
  • Наш подход к интерфейсу
  • Как лучше всего отдать данные пользователю
Читать дальше →
Всего голосов 118: ↑113 и ↓5 +108
Просмотры 87K
Комментарии 124