Pull to refresh

Распознавание некоторых современных CAPTCHA

Reading time 15 min
Views 77K
Python *Algorithms *Image processing *
Sandbox
Именно так называлась работа, представленная мной на Балтийском научно-инженерном конкурсе, и принёсшая мне очаровательную бумажку с римской единичкой, а также новенький ноутбук.

Работа заключалась в распознавании CAPTCHA, используемых крупными операторами сотовой связи в формах отправки SMS, и демонстрации недостаточной эффективности применяемого ими подхода. Чтобы не задевать ничью гордость, будем называть этих операторов иносказательно: красный, жёлтый, зелёный и синий.

Читать дальше →
Total votes 319: ↑313 and ↓6 +307
Comments 148

Десяток датчиков и одна бабушка на службе прогресса

Reading time 4 min
Views 8.5K
Content AI corporate blog
Добрый день, Хабр!

Сегодня я расскажу тебе о конференциях ICDAR и CBDAR , состоявшихся в конце августа в стольном граде Вашингтоне. Точнее, не о конференциях целиком – наука там достаточно специфична, не зря помимо сотрудников ABBYY русскоязычных участников там было раз-два и обчёлся. Здесь речь пойдёт о работах команды под руководством учёного-энтузиаста по имени Кай Кунзе (Kai Kunze).

Область интересов Кая не вполне соответствует тематике конференций, но тесно с ней переплетается. Достаточно подробно Кай рассказал о своих разработках на своём пленарном докладе (Keynote talk) конференции CBDAR. А занимается Кай тем, что учит компьютер понимать, чем занимается пользователь. Так как большинство участников конференции (в том числе и я) слабо разбирается в «железе», то эта тема в докладах не была освещена должным образом, поэтому под катом рассказов о железе нет.
А что там всё-таки есть?
Total votes 24: ↑23 and ↓1 +22
Comments 17

Работа каскада Хаара в OpenCV в картинках: теория и практика

Reading time 7 min
Views 70K
Recognitor corporate blog Development for iOS *Image processing *


В прошлой статье мы подробно описали алгоритм распознавания номеров (ссылка), который заключается в получении текстового представления на заранее подготовленном изображении, содержащем рамку с номером + небольшие отступы для удобства распознавания. Мы лишь вскользь упомянули, что для выделения областей, где содержатся номера, использовался метод Виолы-Джонса. Данный метод уже описывался на хабре (ссылка, ссылка, ссылка, ссылка). Сегодня мы проиллюстрируем наглядно то, как он работает и коснёмся ранее необсужденных аспектов + в качестве бонуса будет показано, как подготовить вырезанные картинки с номерами на платформе iOS для последующего получения уже текстового представления номера.
Читать дальше →
Total votes 41: ↑40 and ↓1 +39
Comments 0

Технология распознавания этикеток на примере ярлыков из IKEA (2 видео)

Reading time 4 min
Views 16K
Smart Engines corporate blog Development for iOS *Development of mobile applications *Image processing *
Задача распознавания этикеток имеет большое практическое значение. Ведь ее решение может существенно упростить работу с товарами в магазинах, начиная от мерчандайзинга и заканчивая непосредственно продажей конечному покупателю. Однако, по причине слабой формализации самой задачи и большой вариативности потенциальных объектов распознавания, универсальной технологии распознавания этикеток в настоящее время не существует. А торговые предприятия, понимая высокую коммерческую ценность подобной автоматизации, используют различные обходные пути (например, приклеивают к товарам 1D- или 2D-штрихкоды).

Несмотря на это, задача распознавания ярлыков не перестает притягивать многие пытливые умы. Вот и мы захотели найти такую практическую задачу, которая решается с помощью технологии распознавания этикеток и при этом приносит общественную пользу. Ответ нашелся сам собой во время очередного поедания знаменитых шведских фрикаделек с брусничным соусом.


Читать дальше →
Total votes 17: ↑14 and ↓3 +11
Comments 5

Аутентификация и идентификация по голосу с помощью когнитивных сервисов Microsoft

Reading time 5 min
Views 8.7K
Development of mobile applications *Development for Windows Phone *Microsoft Azure *Development for Windows *
Tutorial

Когнитивные сервисы представляют доступ к различным облачным сервисам, которые позволяют работать с визуальной, голосовой и текстовой информацией. Кроме того, доступны различные поисковые функции Bing.

Для того, чтобы попробовать когнитивные сервисы в действии даже не обязательно иметь аккаунт Microsoft. Получить пробный ключ можно и с помощью аккаунта GitHub или LinkedIn. Пробная подписка не ограничена по времени, но ограничена по количеству используемых ресурсов за период. Ознакомиться с онлайн демонстрацией можно по адресу: Speaker Recognition API

Далее идет описание того как опробовать в действии аутентификацию пользователя с помощью голоса. Хоть сервис еще и в состоянии preview, но, несмотря на это, уже довольно интересен.
Сервис может быть использован из различных платформ, но я буду рассматривать создание C#/XAML приложения UWP.
Читать дальше →
Total votes 17: ↑17 and ↓0 +17
Comments 3

Чем распознавать на мобильных платформах?

Reading time 3 min
Views 17K
Development of mobile applications *Development for Android *Google Cloud Vision API *
image

image

Как-то так вышло что на какой бы я бирже фриланса не начинал первый проект — всегда с распознаванием, поэтому в создании приложух с подобным функционалом у меня много опыта, которым я хотел сегодня с вами поделиться.
Читать дальше →
Total votes 26: ↑21 and ↓5 +16
Comments 9

Компьютерное зрение и машинное обучение в PHP используя библиотеку opencv

Reading time 9 min
Views 31K
Open source *PHP *Programming *Image processing *Machine learning *
Tutorial
Всем привет. Это моя юбилейная статья на Хабре. За почти 7 лет я написал 10 статей (включая эту), 8 из них — технические. Общее количество просмотров всех статей — около полумиллиона.
Основной вклад я внёс в два хаба: PHP и Серверное администрирование. Мне нравится работать на стыке этих двух областей, но сфера моих интересов гораздо шире.

Как и многие разработчики я часто пользуюсь результатами чужого труда (статьи на Хабре, код на гитхабе, ...), поэтому я всегда рад делиться с сообществом своими результатами в ответ. Написание статей — это не только возврат долга сообществу, но так же позволяет найти единомышленников, получить комментарии от профессионалов в узкой сфере и ещё больше углубить свои знания в исследуемой области.

Собственно эта статья об одном из таких моментов. В ней я опишу чем занимался почти всё своё свободное время за последние полгода. Кроме тех моментов, когда я ходил купаться в море через дорогу, смотрел сериалы или игрался в игры.


Читать дальше →
Total votes 41: ↑41 and ↓0 +41
Comments 21

Распознавание товаров на полках с помощью нейронных сетей на технологиях Keras и Tensorflow Object Detection API

Reading time 18 min
Views 29K
True Engineering corporate blog Image processing *Machine learning *Artificial Intelligence
В статье мы расскажем о применении свёрточных нейронных сетей для решения практической бизнес-задачи восстановления реалограммы по фотографии полок с товарами. С помощью Tensorflow Object Detection API мы натренируем модель поиска/локализации. Улучшим качество поиска мелких товаров на фотографиях с большим разрешением с помощью плавающего окна и алгоритма подавления немаксимумов. На Keras реализуем классификатор товаров по брендам. Параллельно будем сравнивать подходы и результаты с решениями 4 летней давности. Все данные, использованные в статье, доступны для скачивания, а полностью рабочий код есть на GitHub и оформлен в виде tutorial.
 

Читать дальше →
Total votes 28: ↑27 and ↓1 +26
Comments 8

Распознаём тексты на Android Things с ABBYY RTR SDK и django

Reading time 10 min
Views 4.2K
Content AI corporate blog Python *Django *Development for Android *IOT
Tutorial

Привет! Меня зовут Азат Калмыков, я студент второго курса ОП “Прикладная математика и информатика” Факультета компьютерных наук НИУ ВШЭ и стажёр в отделе мобильной разработки компании ABBYY. В этом материале я расскажу про свой небольшой проект, выполненный в рамках летней стажировки.



Представьте себе небольшой конвейер. По нему едут товары или какие-то детали, на которых важно распознавать текст (возможно, это некий уникальный идентификатор, а может, и что-то более интересное). Хорошим примером будут посылки. Работу конвейера дистанционно контролирует оператор, который отслеживает неполадки и в случае чего решает проблемы. Что может ему в этом помочь? Девайс на платформе Android Things может быть неплохим решением: он мобильный, легко настраивается и может работать через Wi-Fi. Мы решили попробовать использовать технологии ABBYY и узнать, насколько они подходят для таких ситуаций — распознавания текста в потоке на “нестандартных устройствах” из категории Internet of Things. Мы сознательно будем упрощать многие вещи, так как просто строим концепт. Если стало интересно, добро пожаловать под кат.

Total votes 25: ↑24 and ↓1 +23
Comments 4

Алгоритм распознавания ценников, который работает даже на терминалах сбора данных

Reading time 8 min
Views 3.1K
Smart Engines corporate blog Algorithms *Image processing *Machine learning *Artificial Intelligence

Привет, Хабр! Сегодня мы продолжаем нашу классическую серию статей про то, как с использованием методов обработки изображений и распознавания образов сделать что-то полезное с практической точки зрения. Сегодня речь пойдет о задаче распознавания ценников. Обычных ценников товаров, которые каждый может встретить в любом магазине. Только для обеспечения должной практичности мы добавим важное требование в постановку задачи: распознаваемые изображения получают при помощи малоформатной цифровой камеры, а вычислительное устройство имеет существенные ограничения по ресурсам. Другими словами, мы расскажем, как распознавать ценники на вычислительно слабом мобильном устройстве (кстати, здесь речь идет не столько о дешевом китайском смартфоне, сколько о специальных промышленных терминалах сбора данных, которые в силу ряда причин тоже обладают достаточно слабыми “мозгами”). Итак, если Вам интересна тема автоматизации ритейла, добро пожаловать под кат!


Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Comments 9

ML в реальном мире: Складская система распознавания деталей

Reading time 5 min
Views 5.8K
ICL Services corporate blog Python *Machine learning *Artificial Intelligence

Одним из проектов над которыми мне пришлось недавно поработать, стало создание складской системы для распознавания складируемых деталей. Проблема достаточно простая для понимания: на промышленном складе кладовщики, особенно новые, при поступлении новой партии, зачастую не могут с ходу понять что за детали поступили, и куда их нужно отнести.

Читать далее
Total votes 29: ↑28 and ↓1 +27
Comments 14

Как я использовал нейросеть для категоризации трехмерных тел

Reading time 13 min
Views 5.8K
МойОфис corporate blog Python *Artificial Intelligence

Значимость темы машинного обучения (machine learning) сегодня очевидна. Это огромный домен знаний в Computer Science, которому в России, в частности, посвящают конференции уровня недавней AI Journey. Существует множество способов применения ML в различных областях, среди самых исследованных: распознавание изображений/видео/голоса, процессинг текста. Однако есть и более любопытные задачи, с которыми справляется ML. Например, обучение с подкреплением, что позволяет ИИ играть в игры типа Го, идентификация людей по фотографии, распознавание жестов, движений и поз человека.

Одной из не совсем обычных областей применения машинного обучения можно назвать работу с трехмерными телами. Такая технология активно исследуется за рубежом, а вариантов использования у нее может быть масса. Простой пример: дрон сканирует помещение, в котором находится множество тел. С помощью ML дрон может классифицировать объекты окружения, найти ошибки в пространственном размещении этих тел или же построить 3D-интерьер комнаты со ссылками на онлайн-магазин, где эти предметы можно купить.

Под катом — рассказ о том, как наш сотрудник задействовал машинное обучение для распознавания и классификации трехмерных тел. При этом весь информационный контекст был ограничен геометрией этих тел, то есть исключительно набором вершин и полигонов.

Читать далее
Total votes 57: ↑56 and ↓1 +55
Comments 3