Search results for «[распознавание символов]» / Habr

Publications Hubs Companies Users Comments

alizar Aug 14 2019 at 17:20

Хакер жалуется на полицию: его автомобиль с номерным знаком NULL получил штрафов более чем на $12 000

3 min

57K

Abnormal programming*IT systems testing*Image processing*Web services testing*

Её дочь зовут Помогите! Меня заставляют подделывать паспорта

Специалист по безопасности под ником Droogie решил, что на его новом автомобильном номере должно быть написано NULL. В основном ради шутки, но был и скрытый смысл. Он надеялся, что благодаря такому хаку сможет избежать штрафов за превышение скорости (по понятной причине). Вышло совсем наоборот, о чём исследователь рассказал на хакерской конференции DEF CON 2019 в своём выступлении 11 августа (презентация "Go NULL Yourself or: How I Learned to Start Worrying While Getting Fined for Other’s Auto Infractions": pdf, зеркало).

+54

alexneuro Feb 17 2020 at 13:52

Распознавание символов методом наименьшего расстояния Левенштейна

3 min

8.4K

Programming*Java*

From sandbox

В последнее время задача распознавания символов в прикладных программах не представляет особой сложности — можно использовать множество готовых OCR-библиотек, многие из которых доведены почти до совершенства. Но все же иногда может возникнуть задача разработать свой алгоритм распознавания без использования сторонних «навороченных» OCR-библиотек.

Именно такая задача возникла у меня по ходу работы, а причин, почему лучше не использовать готовые библиотеки, несколько: закрытость проекта, с его дальнейшей сертификацией, определенное ограничение на количество строчек кода и размер подключаемых библиотек, тем более что по предметной области распознавать приходится достаточно определенный набор символов.

Читать дальше →

+14

LRpro Jun 15 2017 at 10:26

Оптическое распознавание символов на микроконтроллере

12 min

25K

Programming*Algorithms*Image processing*Programming microcontrollers*Development for IOT*

На сегодняшний день оптическое распознавание символов является частью решения таких прикладных задач, как распознавание и оцифровка текстов, распознавание документов, распознавание автомобильных номеров, определение номеров банковских карточек, чтение показаний счетчиков учета, определения номеров домов для создания карт (Google Street View) и т.д.

Распознавание символа означает анализ его изображения с целью получения некоторого набора признаков для сравнения их с признаками класса [ 1 ]. Выбор такого набора и способы его определения отличают разные методы распознавания, но для большинства из них необходима одномоментная информация обо всех пикселях изображения.

Последнее обстоятельство и достаточно большой объем вычислений делают невозможным использования маломощных вычислительных устройств (микроконтроллеров) для оптического распознавания символов. «Да и зачем?» — воскликнет информированный читатель, «мощности вычислительных устройств постоянно растут, а их цена падает!»[2, 3]. Допустим, что ответ будет такой: просто интересно, возможно ли упростить метод распознавания до такой степени, чтобы можно было бы использовать микроконтроллер?

Читать дальше →

+32

alizar Nov 3 2008 at 14:58

Google подключил OCR-движок для индексации PDF

1 min

1.2K

Search engines*

Google сделал значительный шаг на пути к индексированию так называемой Невидимой сети, то есть той львиной части сетевого контента, которая до сих пор не поддаётся роботам поисковых систем. Это, в основном, запароленые сайты и различные базы данных, а также огромные массивы отсканированных документов в формате PDF.

И Google, и многие другие поисковики без проблем индексируют PDF, если в нём есть текстовый слой (он хранится в стандартном текстовом формате в контейнере файла). Но подобных «правильных» PDF на самом деле довольно мало. Гораздо больше документов представляют собой обычные отсканированные копии в графическом формате, просто сохранённые в PDF. Поэтому для их индексации Google сейчас подключил OCR-движок. Теперь в индекс попадут миллионы недоступных ранее государственных отчётов, судебных решений и академических исследований. Вот некоторые примеры работы нового движка.

Нужно напомнить, что в апреле Google научился обрабатывать выпадающие меню и другие HTML-формы в различных интерфейсах баз данных, это тоже важная технология по индексации Невидимой сети.

+49

dr_bob_davidov Jun 6 2016 at 18:06

Система распознавания отображаемых данных объекта

11 min

23K

Image processing*

СИСТЕМА РАСПОЗНАВАНИЯ ОТОБРАЖАЕМЫХ ДАННЫХ ОБЪЕКТА

ВВЕДЕНИЕ
Разработанная система предназначена для бесконтактного распознавания данных объекта выводимых на его дисплей. Система является частью средств для тестирования объекта по данным диалога между объектом и пользователем.
Тестирование систем, имеющих доступ к программным или аппаратным каналам вывода информации пользователя не требует распознавания данных. Однако, когда такое подключение к данным объекта отсутствует, его можно выполнить при помощи бесконтактной системы распознавания, которая может обеспечить длительное наблюдение за состоянием объекта в автоматическом режиме.
В этой работе обсуждаются средства распознавания МатЛАБ без использования нейронных сетей, эффективность которых, в значительной мере, зависит от результатов обучения.
Особенности разработанной системы показаны на примере распознавания данных дайв-компьютера компании Open Safety Equipment Ltd.
Статья содержит следующие разделы.
• Библиотечные функции обработки изображений МатЛАБ
• Характеристики используемой веб камеры, подключение камеры к среде МатЛАБ, настройка режимов камеры.
• Распознавание символов с использованием корреляционных функций.
• Интерфейс пользователя системы распознавания и результаты распознавания

БИБЛИОТЕЧНЫЕ ФУНКЦИИ ОБРАБОТКИ ИЗОБРАЖЕНИЙ МАТЛАБ
MatLAB имеет библиотеки функций для работы с графическими файлами и видеосигналами. Ниже даны используемые варианты библиотечных функций.
Считывание изображения графического файла

>> pct = imread('DC_OS.jpg');

Рис. 1. RGB изображение [1] JPG файла в формате <196x259x3 uint8>

Читать дальше →

SmartEngines Jun 28 2023 at 09:54

Каково расстояние между «Будапештом» и «Бухарестом» или об отождествлении слов с помощью расстояния Левенштейна

Medium

6 min

2.1K

Smart Engines corporate blogAlgorithms*Image processing*Mathematics*

Каждый из нас из школы помнит определение Евклидова расстояния между двумя точками на плоскости. С помощью расстояния Евклида можно вычислить расстояние между двумя точками на карте, например, между вашим местоположением и станцией метро. Но для пешехода в Нью-Йорке расстояние между двумя точками в городе будет отличаться от расстояния Евклида между двумя точками из-за невозможности передвигаться иначе, как по проезжим улицам, пересекающимся под прямыми углами. Такое расстояние так и называется: "расстояние городских кварталов" или манхэттенское расстояние. При любом способе расстояние характеризует меру близости точек. В сегодняшней статье мы расскажем о способах вычисления расстояния между двумя словами.

LexTalionis Mar 5 2013 at 18:00

Распознавание рукописных символов с использованием Python и scikit

5 min

29K

Python*Programming*Data Mining*

Tutorial

From sandbox

Привет. Наверняка многие интересуются методами машинного обучения и решения различных задач, которые обычными подходами не решаются. Недавно мне посчастливилось попасть на курс Data Mining, организованный в рамках программы GameChangers. Первым же домашним заданием было сделать сабмит на Kaggle — решить задачу Digit Recognizer.

Читать дальше →

+22

sic Mar 13 2013 at 23:04

Построение системы оптического распознавания структурной информации на примере Imago OCR

19 min

37K

Open source*Algorithms*Image processing*

В настоящей заметке я расскажу о том, как можно построить систему оптического распознавания структурной информации, опираясь на алгоритмы, применяющиеся в обработке изображений и их реализации в рамках библиотеки OpenCV. За описанием системы стоит активно развивающийся open source проект Imago OCR, который может быть непосредственно полезен в распознавании химических структур, однако в заметке я не буду говорить о химии, а затрону более общие вопросы, решение которых поможет в распознавании структурированной информации различного рода, например таблицы или графики.

Читать дальше →

+64

57DeD Apr 1 2013 at 11:03

Рунический процессинг

3 min

11K

Content AI corporate blogImage processing*

Добрый день, уважаемые читатели.

Наверное, вы хотите услышать от нас бравурную success-story внедрения наших облачных технологий. Разочарую – сегодня речь пойдёт о делах более чем земных, но не становящихся от этого менее интересными. Я попробую рассказать вам об амбициозном проекте процессинга рунических документов, получаемых из разных источников. К примеру, вот таких:

В этом проекте мы столкнулись с необычными задачами не только для систем распознавания, синтеза текста и DA (document analysis – так у нас называют часть FineReader’а, отвечающую за выделение текстовых областей), но и для обработки изображений и экспорта.

Наша компания выступила в этом проекте не в совсем привычной для себя роли. Обычно наши технологии используются для потокового ввода документов, мы в этом поднаторели основательно и потому к таким задачам всегда готовы. На этот раз заказчики выбрали нас для решения скорее исследовательских задач, где требуется кропотливое восстановление каждого документа с максимальной точностью.

Впрочем, обо всё по порядку

+42

LRpro Jan 31 2018 at 10:15

Универсальная система удаленного сбора данных со счетчиков

7 min

48K

Self Promo

Необходимость регулярного снятия показаний приборов учета и передачи полученных данных поставщику ресурсов является неотъемлемой частью жизни современного человека.

Хотя операция снятия показаний не является очень обременительной, но она сопровождается «человеческим фактором»: про нее можно забыть, совершить ошибки при снятии или отправке данных, могут быть ошибки и с другой стороны. Кроме того увеличение стоимости ресурсов повышает ответственность сторон и приводит к росту недоверия между ними, попыткам хищения с одной стороны, появлению армии контроллеров с другой стороны, а это приводит к дальнейшему росту стоимости ресурсов.

+11