Обновить
256K+

Обработка изображений *

Работаем с фото и видео

67,27
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Правда и ложь систем распознавания лиц

Время на прочтение11 мин
Охват и читатели64K
Пожалуй нет ни одной другой технологии сегодня, вокруг которой было бы столько мифов, лжи и некомпетентности. Врут журналисты, рассказывающие о технологии, врут политики которые говорят о успешном внедрении, врут большинство продавцов технологий. Каждый месяц я вижу последствия того как люди пробуют внедрить распознавание лиц в системы которые не смогут с ним работать.



Тема этой статьи давным-давно наболела, но было всё как-то лень её писать. Много текста, который я уже раз двадцать повторял разным людям. Но, прочитав очередную пачку треша всё же решил что пора. Буду давать ссылку на эту статью.

Итак. В статье я отвечу на несколько простых вопросов:

  • Можно ли распознать вас на улице? И насколько автоматически/достоверно?
  • Позавчера писали, что в Московском метро задерживают преступников, а вчера писали что в Лондоне не могут. А ещё в Китае распознают всех-всех на улице. А тут говорят, что 28 конгрессменов США преступники. Или вот, поймали вора.
  • Кто сейчас выпускает решения распознавания по лицам в чём разница решений, особенности технологий?

Большая часть ответов будет доказательной, с сылкой на исследования где показаны ключевые параметры алгоритмов + с математикой расчёта. Малая часть будет базироваться на опыте внедрения и эксплуатации различных биометрических систем.

Я не буду вдаваться в подробности того как сейчас реализовано распознавание лиц. На Хабре есть много хороших статей на эту тему: а, б, с (их сильно больше, конечно, это всплывающие в памяти). Но всё же некоторые моменты, которые влияют на разные решения — я буду описывать. Так что прочтение хотя бы одной из статей выше — упростит понимание этой статьи. Начнём!

Система распознавания лиц Amazon Rekognition приняла 28 конгрессменов США за преступников

Время на прочтение3 мин
Охват и читатели33K


Американский союз гражданских свобод (American Civil Liberties Union, ACLU) продолжает кампанию против использования систем распознавания лиц федеральными агентствами и полицией. ACLU настаивает, что качество этих систем слишком низкое для реального использования. В результате будет много ложных срабатываний, из-за чего пострадают невинные люди. Пытаясь убедить Конгресс США запретить использование этих систем, правозащитники предприняли дерзкую, но эффективную акцию: они прогнали через систему распознавания лиц Amazon Rekognition всех американских конгрессменов. Результат оказался немного предсказуем: система распознала 28 конгрессменов как преступников. Фотографии «героев» на скриншоте вверху.
Читать дальше →

Компьютерное зрение: как за нами наблюдает ИИ

Время на прочтение17 мин
Охват и читатели7.3K
Недавно мы рассказывали о том, как нас анализируют в кинотеатрах с помощью технологии компьютерного зрения: эмоции, жесты и вот это всё. Сегодня публикуем разговор с нашим коллегой из подразделения Microsoft Research. Он занимается созданием того самого зрения. Под катом подробности о развитии технологии, немного о GDPR, а также о сферах применения. Присоединяйтесь!

Читать дальше →

AI, практический курс. Современные архитектуры глубоких нейронных сетей для классификации изображений

Время на прочтение7 мин
Охват и читатели20K


В предыдущей статье, Обзор нейронных сетей для классификации изображений, мы ознакомились с основными базовыми понятиями сверточных нейронных сетей, а также лежащими в их основе идеями. В данной статье мы рассмотрим несколько архитектур глубоких нейронных сетей, обладающих большой вычислительной мощностью — таких как AlexNet, ZFNet, VGG, GoogLeNet и ResNet — и подытожим основные преимущества каждой из этих архитектур. Структура статьи основана на записи в блоге Основные понятия сверточных нейронных сетей, часть 3.
Читать дальше →

Редактирование изображений формата .heic без потери цветов

Время на прочтение3 мин
Охват и читатели59K
Рассмотрена проблема потери естественности цветопередачи при конвертации изображений из формата heic в форматы jpg и png, описан метод решения в Photoshop.



Описание проблемы


В настоящее время набирает популярность формат изображений HEIF, обозначаемый на устройствах Apple расширением heic. По сравнению с форматом jpeg он позволяет при равном размере файла достичь лучшего качества. Однако, при конвертации этого формата в JPEG происходит потеря цвета. Коварство заключается в том, что при беглом просмотре пользователи могут не заметить небольшого расхождения в цветопередаче и выложить в интернет гораздо более бледную фотографию, чем она выглядела на экране айфона. Чтобы этого не происходило, следует после конвертации корректировать цветовые профили в Photoshop.
Читать дальше →

Адаптивный Waveform для вашего аудиосервиса

Время на прочтение6 мин
Охват и читатели9.7K


Когда мне понадобилось для сайта одной радиопередачи наладить выкладку аудио архива, помимо админки нужен был еще и аудиоплеер. Радиопередача шла 40 минут плюс две музыкальные паузы. Использовать Waveform в таких длинных форматах особенно удобно, поэтому как и многие музыкальные сервисы, я решил использовать это решение в оформлении плеера.

При планируемом будущем редизайне сайта и, возможно, будущих мобильных приложений, растровый waveform тут просто клином упирался. Он не адаптивен, его крайне ресурсоемко редизайнить, если он в растре.
Читать дальше →

Простой редактор изображений на VueJS

Время на прочтение8 мин
Охват и читатели13K
Недавно мне выпала возможность написать сервис для интернет-магазина, который помогал бы оформить заказ на печать своих фото.

Сервис предполагал наличие «простого» редактора изображений, созданием которого, я бы хотел поделиться. А все потому, что среди обилия всевозможных плагинов я не нашел подходящего функционала, к тому же, нюансы CSS трансформаций, неожиданно стали для меня весьма нетривиальной задачей.

image
Читать дальше →

Российские и украинские команды взяли верх над европейцами на европейском финале интеловского конкурса InnovateFPGA

Время на прочтение5 мин
Охват и читатели14K
Золото досталось России, серебро разделила Россия и Италия, бронза досталась Украине. Таковы результаты европейского финала престижного соревнования InnovateFPGA под эгидой Интела. Победители поедут в Калифорнию, где встретятся с финалистами из Америки и Азии. Надеюсь, теперь не нужно будет объяснять на Хабре, почему Verilog и ПЛИС/FPGA стратегически важны, несмотря на то, что «вакансий на джаву больше».

Студенты, которые сейчас делают проекты на ПЛИСах, через несколько лет будут делать массовые микросхемы для самоуправляемых автомобилей, ускорителей нейронных сетей, дополненной реальности и других приложений, в который обычный процессор не справляется. Именно поэтому Intel потратил 16.7 миллиардов долларов на покупку Altera и вход в рынок ПЛИС. А на днях Интел купил еще и компанию eASIC для дешевой конверсии дизайнов из ПЛИС в ASIC (в eASIC есть достаточно многочисленная российская команда).

Победа российских и украинских команд в интеловском конкурсе InnovateFPGA возникла не на пустом месте, а в результате работы конкретных людей в ЛЭТИ, ИТМО, КПИ и других местах, о которых уже были статьи на Хабре. Если продолжить эти начинания и расширить преподавание ПЛИС и языков описания аппаратуры во все технические вузы от Калининграда до Якутии, от Львова до Тбилиси и Астаны — то через пару десятилетий это может изменить расстановку сил в мировой электронной промышленности примерно так же, как работы Курчатова и Королева изменили расстановку сил в мировой атомной промышленности и освоении космоса.


Презентация робота SpotMini от Boston Dynamics

Время на прочтение3 мин
Охват и читатели12K

Это видео где Marc Raibert основатель Boston Dynamics рассказывает про роботов: BigDog, Spot, SpotMini, Atlas. На основании этого видео и других видео где выступал Marc, я опишу кратко технологии роботов и дальнейшие планы компании.

AI, практический курс. Обзор нейронных сетей для классификации изображений

Время на прочтение8 мин
Охват и читатели32K
В данной статье приводится доступный теоретический обзор сверточных нейронных сетей (Convolutional Neural Network, CNN) и разъясняется их применение к задаче классификации изображений.


Читать дальше →

kaggle: IEEE's Camera Model Identification

Время на прочтение7 мин
Охват и читатели6.8K
В конце зимы этого года прошло соревнование IEEE's Signal Processing Society — Camera Model Identification. Я участвовал в этом командном соревновании в качестве ментора. Об альтернативном способе формирования команды, решении и втором этапе под катом.


Читать дальше →

Распознавание товаров на полках с помощью нейронных сетей на технологиях Keras и Tensorflow Object Detection API

Время на прочтение18 мин
Охват и читатели37K
В статье мы расскажем о применении свёрточных нейронных сетей для решения практической бизнес-задачи восстановления реалограммы по фотографии полок с товарами. С помощью Tensorflow Object Detection API мы натренируем модель поиска/локализации. Улучшим качество поиска мелких товаров на фотографиях с большим разрешением с помощью плавающего окна и алгоритма подавления немаксимумов. На Keras реализуем классификатор товаров по брендам. Параллельно будем сравнивать подходы и результаты с решениями 4 летней давности. Все данные, использованные в статье, доступны для скачивания, а полностью рабочий код есть на GitHub и оформлен в виде tutorial.
 

Читать дальше →

Кодек нового поколения AV1: корректирующий направленный фильтр CDEF

Время на прочтение19 мин
Охват и читатели13K


Автор: Monty (monty@xiph.org, cmontgomery@mozilla.com). Опубликовано 28 июня 2018 года.

Если кто не читал предыдущую статью… AV1 — это новый универсальный видеокодек, разработанный Альянсом за открытые медиа (Alliance for Open Media). Альянс взял за основу кодек VPX от Google, Thor от Cisco и Daala от Mozilla/Xiph.Org. Кодек AV1 превосходит по производительности VP9 и HEVC, что делает его кодеком не завтрашнего, а послезавтрашнего дня. Формат AV1 свободен от любых роялти и навсегда останется таковым с разрешительной лицензией.

Эта статья задумывалась как вторая в серии статей, которые подробно описывают функциональность AV1 и новых технологий, которые лежат в его основе и впервые используются в продакшне. Предыдущая статья на Xiph.org объясняла функцию прогнозирования яркости Chroma from Luma (CfL). Сегодня мы расскажем об ограниченном направленном корректирующем фильтр (Constrained Directional Enhancement Filter). Если вы всегда задавались вопросом, что нужно для написания кодека, пристегните ремни и приготовьтесь к образованию!
Читать дальше →

Ближайшие события

Машинное зрение для ритейла. Как прочитать ценники в магазине

Время на прочтение7 мин
Охват и читатели19K
Машинное зрение – очень актуальная тема в наши дни. Для решения задачи по распознаванию магазинных ценников с использованием нейронных сетей мы выбрали фреймворк TensorFlow.

В статье пойдет речь именно о том, как с его помощью локализовать и идентифицировать несколько объектов на одном магазинном ценнике, а также распознать его содержимое. Похожая задача распознавания ценников IKEA уже решалась на Хабре с применением классических инструментов обработки изображений, доступных в библиотеке OpenCV.

Отдельно хотелось бы отметить, что решение может работать как на платформе SAP HANA в связке с Tensorflow Serving, так и на SAP Cloud Platform.

Задача распознавания цены товара актуальна и для покупателей, которые хотят «шарить» цены друг с другом и выбирать магазин для покупок, и для ритейлеров — они хотят узнавать про цены конкурентов в режиме реального времени.

Хватит лирики – гоу в технику!
Читать дальше →

Аппаратное кодирование видео потока на камере Logitech C920 и отправка его в ROS по wifi с задержкой менее 0.2 секунды

Время на прочтение3 мин
Охват и читатели8.5K

В этой инструкции мы отправим аппаратно закодированный h264 видео поток камеры Logitech C920 переданный c BeagleBone Blue по wifi сети на ноутбук, а затем примем его в узел ROS gscam и произведем поиск и распознавание изображений карт таро и бутылки кетчупа по пути движения робота EduMIP.

Виртуальный зал Эрмитажа — первый шаг к будущему по Пелевину

Время на прочтение4 мин
Охват и читатели14K


Мы застряли с оцифровкой зала Эрмитажа примерно на месяц. Изначально мы думали, что имеющиеся решения для переноса объектов в 3D (типа лазерных сканеров) будут отлично работать и вопрос исключительно технический. На деле оказалось, что эта область не очень-то проработана и подводных камней там море.

За проект попали на конференцию FMX по иммерсионным технологиям и графике. Российские разработчики попадают на эту конференцию с докладом впервые. Мы выступаем вместе с Пиксаром и ребятами, которые делали «Игру престолов». Не то чтобы мы такие крутые, как Пиксар, просто агрегировали всё лучшее, что было на рынке, лучшие практики по фотограмметрии и опытным путём всё это применяли. Оказалось, так ещё никто не делал.

Но давайте начнём с того, что может быть сложного в оцифровке зала со статуей. Делов-то на пару дней, правда?
Читать дальше →

Фотографии 19-го века удалось восстановить при помощи технологий 21-го века

Время на прочтение3 мин
Охват и читатели14K

Первая работоспособная технология фотографии называлась дагеротипия. Это фотографический процесс, основа которого — светочувствительность йодистого серебра. Технология пользовалась заслуженной популярностью в течение примерно 20 лет, пока на смену ей не пришли более практичные (а главное — дешевые) процессы.

Современные снимки по внешнему виду отличаются от дагеротипов. Последние больше напоминают отражение в зеркале. Причина этого то, что «картинка» получалась при помощи смеси серебра и ртути. Ее называли зеркалом с памятью. В зависимости от угла наклона пластинки к источнику света дагеротип может выглядеть и как позитив, и как негатив. Недостатком такого типа получения изображений была недолговечность результата.

Обнаружение и распознавание объектов с камеры в ROS с помощью пакета find_object_2d

Время на прочтение4 мин
Охват и читатели16K


Одним из преимуществ Robot Operating System (ROS) является то, что у него есть множество пакетов, которые можно использовать повторно в наших приложениях. В нашем случае мы хотим внедрить систему распознавания и обнаружения объектов. Пакет find_object_2d реализует SURF, SIFT, ORB, FAST и BRIEF детекторы функций и дескрипторы для обнаружения объектов. Используя графический интерфейс, предоставляемый этим пакетом, мы можем отметить объекты, которые мы хотим обнаружить, и сохранить их для будущего обнаружения. Узел детектора будет обнаруживать объекты в изображениях камеры и публиковать детали объекта через тему. Используя 3D-датчик, он может оценить глубину и ориентацию объекта.

В конце статьи, видео тестирования на примере алгоритмов ORB и SIFT.

Как нам удалось прочитать рукопись, найденную в 80-х возле третьего крематория в Аушвице-Биркенау

Время на прочтение15 мин
Охват и читатели74K
Эта история для меня началась в 2015 году, когда я посмотрел передачу на Youtube с Павлом Поляном, посвященную 70-летию освобождения Аушвица-Биркенау. Он рассказывал о своей книге «Свитки из пепла», его новых переводах с оригиналов документов от непосредственных свидетелей холокоста — членов зондеркоммандо, о найденных им цензурированных первыми переводчиками местах, о состоянии рукописей и о технических проблемах чтения, с которыми он столкнулся.

Меня заинтересовал момент: каким же образом выглядит процесс перевода военных документов, насколько качественно они были оцифрованы, все ли было сделано для того, чтобы не ломать глаза переводчику. Когда я получил на анализ копии оцифрованных документов, я был удивлен нераскрытым потенциалом одной их них – Марселя Наджари. Ее часть в «свитках из пепла» занимала совсем малую главу, через несколько лет эта история раскрутилась до публикаций в мировых СМИ. Она интересна так же, как и страшна.


Читать дальше →

AI, практический курс. Предобработка и дополнение данных с изображениями

Время на прочтение7 мин
Охват и читатели15K
Предобработка — это общий термин для всех манипуляций, производимых с данными перед передачей их модели, включая центрирование, нормализацию, сдвиг, вращение, обрезку и т. п. Как правило, предобработка требуется в двух случаях.

  • Очистка данных. Предположим, что на изображениях присутствуют некоторые артефакты. Чтобы облегчить обучение модели, артефакты необходимо удалить на этапе предобработки.
  • Дополнение данных. Иногда небольших наборов данных недостаточно для качественного глубокого обучения модели. Подход с дополнением данных весьма полезен при решении этой проблемы. Это процесс трансформации каждого образца данных различными способами и добавления к набору данных таких измененных образцов. Таким образом можно повысить эффективный размер набора данных.

Рассмотрим некоторые возможные методы трансформации при предобработке и их реализацию через Keras.

Читать дальше →