Pull to refresh

Хакер жалуется на полицию: его автомобиль с номерным знаком NULL получил штрафов более чем на $12 000

Reading time3 min
Views57K

Её дочь зовут Помогите! Меня заставляют подделывать паспорта

Специалист по безопасности под ником Droogie решил, что на его новом автомобильном номере должно быть написано NULL. В основном ради шутки, но был и скрытый смысл. Он надеялся, что благодаря такому хаку сможет избежать штрафов за превышение скорости (по понятной причине). Вышло совсем наоборот, о чём исследователь рассказал на хакерской конференции DEF CON 2019 в своём выступлении 11 августа (презентация "Go NULL Yourself or: How I Learned to Start Worrying While Getting Fined for Other’s Auto Infractions": pdf, зеркало).
Total votes 62: ↑58 and ↓4+54
Comments83

Распознавание символов методом наименьшего расстояния Левенштейна

Reading time3 min
Views8.4K

В последнее время задача распознавания символов в прикладных программах не представляет особой сложности — можно использовать множество готовых OCR-библиотек, многие из которых доведены почти до совершенства. Но все же иногда может возникнуть задача разработать свой алгоритм распознавания без использования сторонних «навороченных» OCR-библиотек.


Именно такая задача возникла у меня по ходу работы, а причин, почему лучше не использовать готовые библиотеки, несколько: закрытость проекта, с его дальнейшей сертификацией, определенное ограничение на количество строчек кода и размер подключаемых библиотек, тем более что по предметной области распознавать приходится достаточно определенный набор символов.

Читать дальше →
Total votes 16: ↑15 and ↓1+14
Comments18

Оптическое распознавание символов на микроконтроллере

Reading time12 min
Views25K


На сегодняшний день оптическое распознавание символов является частью решения таких прикладных задач, как распознавание и оцифровка текстов, распознавание документов, распознавание автомобильных номеров, определение номеров банковских карточек, чтение показаний счетчиков учета, определения номеров домов для создания карт (Google Street View) и т.д.

Распознавание символа означает анализ его изображения с целью получения некоторого набора признаков для сравнения их с признаками класса [ 1 ]. Выбор такого набора и способы его определения отличают разные методы распознавания, но для большинства из них необходима одномоментная информация обо всех пикселях изображения.

Последнее обстоятельство и достаточно большой объем вычислений делают невозможным использования маломощных вычислительных устройств (микроконтроллеров) для оптического распознавания символов. «Да и зачем?» — воскликнет информированный читатель, «мощности вычислительных устройств постоянно растут, а их цена падает!»[2, 3]. Допустим, что ответ будет такой: просто интересно, возможно ли упростить метод распознавания до такой степени, чтобы можно было бы использовать микроконтроллер?
Читать дальше →
Total votes 32: ↑32 and ↓0+32
Comments27

Google подключил OCR-движок для индексации PDF

Reading time1 min
Views1.2K
Google сделал значительный шаг на пути к индексированию так называемой Невидимой сети, то есть той львиной части сетевого контента, которая до сих пор не поддаётся роботам поисковых систем. Это, в основном, запароленые сайты и различные базы данных, а также огромные массивы отсканированных документов в формате PDF.

И Google, и многие другие поисковики без проблем индексируют PDF, если в нём есть текстовый слой (он хранится в стандартном текстовом формате в контейнере файла). Но подобных «правильных» PDF на самом деле довольно мало. Гораздо больше документов представляют собой обычные отсканированные копии в графическом формате, просто сохранённые в PDF. Поэтому для их индексации Google сейчас подключил OCR-движок. Теперь в индекс попадут миллионы недоступных ранее государственных отчётов, судебных решений и академических исследований. Вот некоторые примеры работы нового движка.

Нужно напомнить, что в апреле Google научился обрабатывать выпадающие меню и другие HTML-формы в различных интерфейсах баз данных, это тоже важная технология по индексации Невидимой сети.
Total votes 53: ↑51 and ↓2+49
Comments32

Система распознавания отображаемых данных объекта

Reading time11 min
Views23K
СИСТЕМА РАСПОЗНАВАНИЯ ОТОБРАЖАЕМЫХ ДАННЫХ ОБЪЕКТА

ВВЕДЕНИЕ
Разработанная система предназначена для бесконтактного распознавания данных объекта выводимых на его дисплей. Система является частью средств для тестирования объекта по данным диалога между объектом и пользователем.
Тестирование систем, имеющих доступ к программным или аппаратным каналам вывода информации пользователя не требует распознавания данных. Однако, когда такое подключение к данным объекта отсутствует, его можно выполнить при помощи бесконтактной системы распознавания, которая может обеспечить длительное наблюдение за состоянием объекта в автоматическом режиме.
В этой работе обсуждаются средства распознавания МатЛАБ без использования нейронных сетей, эффективность которых, в значительной мере, зависит от результатов обучения.
Особенности разработанной системы показаны на примере распознавания данных дайв-компьютера компании Open Safety Equipment Ltd.
Статья содержит следующие разделы.
• Библиотечные функции обработки изображений МатЛАБ
• Характеристики используемой веб камеры, подключение камеры к среде МатЛАБ, настройка режимов камеры.
• Распознавание символов с использованием корреляционных функций.
• Интерфейс пользователя системы распознавания и результаты распознавания

БИБЛИОТЕЧНЫЕ ФУНКЦИИ ОБРАБОТКИ ИЗОБРАЖЕНИЙ МАТЛАБ
MatLAB имеет библиотеки функций для работы с графическими файлами и видеосигналами. Ниже даны используемые варианты библиотечных функций.
Считывание изображения графического файла
>> pct = imread('DC_OS.jpg');


Рис. 1. RGB изображение [1] JPG файла в формате <196x259x3 uint8>
Читать дальше →
Total votes 11: ↑9 and ↓2+7
Comments5

Каково расстояние между «Будапештом» и «Бухарестом» или об отождествлении слов с помощью расстояния Левенштейна

Level of difficultyMedium
Reading time6 min
Views2.1K

Каждый из нас из школы помнит определение Евклидова расстояния между двумя точками на плоскости. С помощью расстояния Евклида можно вычислить расстояние между двумя точками на карте, например, между вашим местоположением и станцией метро. Но для пешехода в Нью-Йорке расстояние между двумя точками в городе будет отличаться от расстояния Евклида между двумя точками из-за невозможности передвигаться иначе, как по проезжим улицам, пересекающимся под прямыми углами. Такое расстояние так и называется: "расстояние городских кварталов" или манхэттенское расстояние. При любом способе расстояние характеризует меру близости точек. В сегодняшней статье мы расскажем о способах вычисления расстояния между двумя словами.

Читать далее
Total votes 5: ↑4 and ↓1+3
Comments13

Распознавание рукописных символов с использованием Python и scikit

Reading time5 min
Views29K
Привет. Наверняка многие интересуются методами машинного обучения и решения различных задач, которые обычными подходами не решаются. Недавно мне посчастливилось попасть на курс Data Mining, организованный в рамках программы GameChangers. Первым же домашним заданием было сделать сабмит на Kaggle — решить задачу Digit Recognizer.
Читать дальше →
Total votes 22: ↑22 and ↓0+22
Comments7

Построение системы оптического распознавания структурной информации на примере Imago OCR

Reading time19 min
Views37K
В настоящей заметке я расскажу о том, как можно построить систему оптического распознавания структурной информации, опираясь на алгоритмы, применяющиеся в обработке изображений и их реализации в рамках библиотеки OpenCV. За описанием системы стоит активно развивающийся open source проект Imago OCR, который может быть непосредственно полезен в распознавании химических структур, однако в заметке я не буду говорить о химии, а затрону более общие вопросы, решение которых поможет в распознавании структурированной информации различного рода, например таблицы или графики.
Читать дальше →
Total votes 70: ↑67 and ↓3+64
Comments5

Рунический процессинг

Reading time3 min
Views11K
Добрый день, уважаемые читатели.

Наверное, вы хотите услышать от нас бравурную success-story внедрения наших облачных технологий. Разочарую – сегодня речь пойдёт о делах более чем земных, но не становящихся от этого менее интересными. Я попробую рассказать вам об амбициозном проекте процессинга рунических документов, получаемых из разных источников. К примеру, вот таких:

image

В этом проекте мы столкнулись с необычными задачами не только для систем распознавания, синтеза текста и DA (document analysis – так у нас называют часть FineReader’а, отвечающую за выделение текстовых областей), но и для обработки изображений и экспорта.

Наша компания выступила в этом проекте не в совсем привычной для себя роли. Обычно наши технологии используются для потокового ввода документов, мы в этом поднаторели основательно и потому к таким задачам всегда готовы. На этот раз заказчики выбрали нас для решения скорее исследовательских задач, где требуется кропотливое восстановление каждого документа с максимальной точностью.

Впрочем, обо всё по порядку
Total votes 54: ↑48 and ↓6+42
Comments17

Универсальная система удаленного сбора данных со счетчиков

Reading time7 min
Views48K


Необходимость регулярного снятия показаний приборов учета и передачи полученных данных поставщику ресурсов является неотъемлемой частью жизни современного человека.

Хотя операция снятия показаний не является очень обременительной, но она сопровождается «человеческим фактором»: про нее можно забыть, совершить ошибки при снятии или отправке данных, могут быть ошибки и с другой стороны. Кроме того увеличение стоимости ресурсов повышает ответственность сторон и приводит к росту недоверия между ними, попыткам хищения с одной стороны, появлению армии контроллеров с другой стороны, а это приводит к дальнейшему росту стоимости ресурсов.
Total votes 19: ↑15 and ↓4+11
Comments51