Все потоки
Поиск
Написать публикацию
Обновить
48.9

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Кодек нового поколения AV1: корректирующий направленный фильтр CDEF

Время на прочтение19 мин
Количество просмотров12K


Автор: Monty (monty@xiph.org, cmontgomery@mozilla.com). Опубликовано 28 июня 2018 года.

Если кто не читал предыдущую статью… AV1 — это новый универсальный видеокодек, разработанный Альянсом за открытые медиа (Alliance for Open Media). Альянс взял за основу кодек VPX от Google, Thor от Cisco и Daala от Mozilla/Xiph.Org. Кодек AV1 превосходит по производительности VP9 и HEVC, что делает его кодеком не завтрашнего, а послезавтрашнего дня. Формат AV1 свободен от любых роялти и навсегда останется таковым с разрешительной лицензией.

Эта статья задумывалась как вторая в серии статей, которые подробно описывают функциональность AV1 и новых технологий, которые лежат в его основе и впервые используются в продакшне. Предыдущая статья на Xiph.org объясняла функцию прогнозирования яркости Chroma from Luma (CfL). Сегодня мы расскажем об ограниченном направленном корректирующем фильтр (Constrained Directional Enhancement Filter). Если вы всегда задавались вопросом, что нужно для написания кодека, пристегните ремни и приготовьтесь к образованию!
Читать дальше →

Машинное зрение для ритейла. Как прочитать ценники в магазине

Время на прочтение7 мин
Количество просмотров18K
Машинное зрение – очень актуальная тема в наши дни. Для решения задачи по распознаванию магазинных ценников с использованием нейронных сетей мы выбрали фреймворк TensorFlow.

В статье пойдет речь именно о том, как с его помощью локализовать и идентифицировать несколько объектов на одном магазинном ценнике, а также распознать его содержимое. Похожая задача распознавания ценников IKEA уже решалась на Хабре с применением классических инструментов обработки изображений, доступных в библиотеке OpenCV.

Отдельно хотелось бы отметить, что решение может работать как на платформе SAP HANA в связке с Tensorflow Serving, так и на SAP Cloud Platform.

Задача распознавания цены товара актуальна и для покупателей, которые хотят «шарить» цены друг с другом и выбирать магазин для покупок, и для ритейлеров — они хотят узнавать про цены конкурентов в режиме реального времени.

Хватит лирики – гоу в технику!
Читать дальше →

Аппаратное кодирование видео потока на камере Logitech C920 и отправка его в ROS по wifi с задержкой менее 0.2 секунды

Время на прочтение3 мин
Количество просмотров8.2K

В этой инструкции мы отправим аппаратно закодированный h264 видео поток камеры Logitech C920 переданный c BeagleBone Blue по wifi сети на ноутбук, а затем примем его в узел ROS gscam и произведем поиск и распознавание изображений карт таро и бутылки кетчупа по пути движения робота EduMIP.

Виртуальный зал Эрмитажа — первый шаг к будущему по Пелевину

Время на прочтение4 мин
Количество просмотров14K


Мы застряли с оцифровкой зала Эрмитажа примерно на месяц. Изначально мы думали, что имеющиеся решения для переноса объектов в 3D (типа лазерных сканеров) будут отлично работать и вопрос исключительно технический. На деле оказалось, что эта область не очень-то проработана и подводных камней там море.

За проект попали на конференцию FMX по иммерсионным технологиям и графике. Российские разработчики попадают на эту конференцию с докладом впервые. Мы выступаем вместе с Пиксаром и ребятами, которые делали «Игру престолов». Не то чтобы мы такие крутые, как Пиксар, просто агрегировали всё лучшее, что было на рынке, лучшие практики по фотограмметрии и опытным путём всё это применяли. Оказалось, так ещё никто не делал.

Но давайте начнём с того, что может быть сложного в оцифровке зала со статуей. Делов-то на пару дней, правда?
Читать дальше →

Фотографии 19-го века удалось восстановить при помощи технологий 21-го века

Время на прочтение3 мин
Количество просмотров14K

Первая работоспособная технология фотографии называлась дагеротипия. Это фотографический процесс, основа которого — светочувствительность йодистого серебра. Технология пользовалась заслуженной популярностью в течение примерно 20 лет, пока на смену ей не пришли более практичные (а главное — дешевые) процессы.

Современные снимки по внешнему виду отличаются от дагеротипов. Последние больше напоминают отражение в зеркале. Причина этого то, что «картинка» получалась при помощи смеси серебра и ртути. Ее называли зеркалом с памятью. В зависимости от угла наклона пластинки к источнику света дагеротип может выглядеть и как позитив, и как негатив. Недостатком такого типа получения изображений была недолговечность результата.

Обнаружение и распознавание объектов с камеры в ROS с помощью пакета find_object_2d

Время на прочтение4 мин
Количество просмотров15K


Одним из преимуществ Robot Operating System (ROS) является то, что у него есть множество пакетов, которые можно использовать повторно в наших приложениях. В нашем случае мы хотим внедрить систему распознавания и обнаружения объектов. Пакет find_object_2d реализует SURF, SIFT, ORB, FAST и BRIEF детекторы функций и дескрипторы для обнаружения объектов. Используя графический интерфейс, предоставляемый этим пакетом, мы можем отметить объекты, которые мы хотим обнаружить, и сохранить их для будущего обнаружения. Узел детектора будет обнаруживать объекты в изображениях камеры и публиковать детали объекта через тему. Используя 3D-датчик, он может оценить глубину и ориентацию объекта.

В конце статьи, видео тестирования на примере алгоритмов ORB и SIFT.

Как нам удалось прочитать рукопись, найденную в 80-х возле третьего крематория в Аушвице-Биркенау

Время на прочтение15 мин
Количество просмотров73K
Эта история для меня началась в 2015 году, когда я посмотрел передачу на Youtube с Павлом Поляном, посвященную 70-летию освобождения Аушвица-Биркенау. Он рассказывал о своей книге «Свитки из пепла», его новых переводах с оригиналов документов от непосредственных свидетелей холокоста — членов зондеркоммандо, о найденных им цензурированных первыми переводчиками местах, о состоянии рукописей и о технических проблемах чтения, с которыми он столкнулся.

Меня заинтересовал момент: каким же образом выглядит процесс перевода военных документов, насколько качественно они были оцифрованы, все ли было сделано для того, чтобы не ломать глаза переводчику. Когда я получил на анализ копии оцифрованных документов, я был удивлен нераскрытым потенциалом одной их них – Марселя Наджари. Ее часть в «свитках из пепла» занимала совсем малую главу, через несколько лет эта история раскрутилась до публикаций в мировых СМИ. Она интересна так же, как и страшна.


Читать дальше →

AI, практический курс. Предобработка и дополнение данных с изображениями

Время на прочтение7 мин
Количество просмотров13K
Предобработка — это общий термин для всех манипуляций, производимых с данными перед передачей их модели, включая центрирование, нормализацию, сдвиг, вращение, обрезку и т. п. Как правило, предобработка требуется в двух случаях.

  • Очистка данных. Предположим, что на изображениях присутствуют некоторые артефакты. Чтобы облегчить обучение модели, артефакты необходимо удалить на этапе предобработки.
  • Дополнение данных. Иногда небольших наборов данных недостаточно для качественного глубокого обучения модели. Подход с дополнением данных весьма полезен при решении этой проблемы. Это процесс трансформации каждого образца данных различными способами и добавления к набору данных таких измененных образцов. Таким образом можно повысить эффективный размер набора данных.

Рассмотрим некоторые возможные методы трансформации при предобработке и их реализацию через Keras.

Читать дальше →

Компьютерное зрение и машинное обучение в PHP используя библиотеку opencv

Время на прочтение9 мин
Количество просмотров35K
Всем привет. Это моя юбилейная статья на Хабре. За почти 7 лет я написал 10 статей (включая эту), 8 из них — технические. Общее количество просмотров всех статей — около полумиллиона.
Основной вклад я внёс в два хаба: PHP и Серверное администрирование. Мне нравится работать на стыке этих двух областей, но сфера моих интересов гораздо шире.

Как и многие разработчики я часто пользуюсь результатами чужого труда (статьи на Хабре, код на гитхабе, ...), поэтому я всегда рад делиться с сообществом своими результатами в ответ. Написание статей — это не только возврат долга сообществу, но так же позволяет найти единомышленников, получить комментарии от профессионалов в узкой сфере и ещё больше углубить свои знания в исследуемой области.

Собственно эта статья об одном из таких моментов. В ней я опишу чем занимался почти всё своё свободное время за последние полгода. Кроме тех моментов, когда я ходил купаться в море через дорогу, смотрел сериалы или игрался в игры.


Читать дальше →

Один день из жизни Орла за несколько секунд

Время на прочтение2 мин
Количество просмотров5.4K
В настоящее время в Интернете имеется множество сайтов, где можно посмотреть видео онлайн с камер видеонаблюдения, которые расположены в общественных местах тех или иных городов. В частности, в городе Орле установлено несколько таких камер. Одна из камер, которая располагается на одной из многоэтажек пер. Почтового, направленная на Детский парк, появилась самой первой. По крайней мере, на одном из сайтов весной в 2011 году я нашёл страницу, где можно было посмотреть видео с данной камеры «в прямом эфире» (онлайн). Однако организована данная трансляция была весьма интересно. Видео шло с очень низкой частотой кадров – 2 кадра в минуту. На самом же деле это было вовсе не видео, а изображение, которое обновлялось автоматически (точнее, обновлялась вся страница) каждые полминуты.

Организация университетского курса по обработке сигналов

Время на прочтение32 мин
Количество просмотров5.8K

Педагогика интересовала меня очень давно и, много лет, я, будучи студентом, воспитанный, но в то же время изведенный и задерганный существующей организацией обучения думал о том, как бы её улучшить. В последнее время мне все чаще предоставляется случай проверить какие-нибудь из идей на практике. В частности, этой весной мне в политехе (СПБПУ) предоставилась возможность прочитать курс “Обработка сигналов”. Его организация, в особенности организация отчетности — первый эксперимент, результаты которого мне кажутся сколько-нибудь удачными, и в этой статье я хочу про организацию этого курса рассказать.

Читать дальше →

Курс о Deep Learning на пальцах

Время на прочтение2 мин
Количество просмотров176K
Я все еще не до конца понял, как так получилось, но в прошлом году я слово за слово подписался прочитать курс по Deep Learning и вот, на удивление, прочитал. Обещал — выкладываю!

Курс не претендует на полноту, скорее это способ поиграться руками с основными областями, где deep learning устоялся как практический инструмент, и получить достаточную базу, чтобы свободно читать и понимать современные статьи.

Материалы курса были опробованы на студентах кафедры АФТИ Новосибирского Государственного Университета, поэтому есть шанс, что по ним действительно можно чему-то научиться.


Читать дальше →

Kaggle: Amazon from Space — трюки и хаки при обучении нейросетей

Время на прочтение9 мин
Количество просмотров19K


Летом прошлого года закончилось соревнование на площадке kaggle, которое было посвящено классификации спутниковых снимков лесов Амазонки. Наша команда заняла 7 место из 900+ участников. Не смотря на то, что соревнование закончилось давно, почти все приемы нашего решения применимы до сих пор, причём не только для соревнований, но и для обучения нейросетей для прода. За подробностями под кат.
Читать дальше →

Ближайшие события

Состязательные атаки (adversarial attacks) в соревновании Machines Can See 2018

Время на прочтение7 мин
Количество просмотров15K
Или как я оказался в команде победителей соревнования Machines Can See 2018 adversarial competition.

image
Суть любых состязательных атак на примере.

Так уж получилось, что мне довелось поучаствовать в соревновании Machines Can See 2018. Я присоединился к соревнованию я поздновато (примерно за неделю до окончания), но в конечном итоге оказался в команде из 4 человек, где вклад троих из нас (включая меня) был необходим для победы (убрать одну составляющую — и мы бы оказались в аутсайдерах).

Цель соревнования — изменять лица людей так, что сверточная нейросеть, предоставленная как черный ящик организаторами, не могла различить лицо-источник от лица-цели. Допустимое количество изменений было ограничено SSIM.
Читать дальше →

«Глаз в небе»: патрульный беспилотник с распознаванием насилия в скоплениях людей и общественных местах

Время на прочтение3 мин
Количество просмотров11K

Иллюстрация слева показывает 14 ключевых точек на человеческом теле, которые распознаёт система машинного зрения: голова, шея, плечи, локти, запястья, бёдра, колени, лодыжки. Справа вверху беспилотник Parrot AR с системой распознавания насилия. Справа внизу отдельные элементы фотографии из обучающего набора данных с ключевыми точками

В наше время БПЛА всё более активно используются правоохранительными органами и спецслужбами. Обычно для шпионажа, разведки, пограничного контроля и т. д. Полиция пока не очень активно применяет дроны для патрулирования городских улиц. А ведь здесь кроется огромный потенциал. Патрульные беспилотники позволяют значительно сэкономить на зарплате персонала. Они покрывают большие территории и отлично видят в темноте.

В связи с ростом преступности и угрозой терроризма во многих странах власти заинтересованы в усилении контроля над гражданским населением. Беспилотники с автоматическим распознаванием насилия — это системы нового поколения, которые открывают двери для ещё более автономных и систем интеллектуального реагирования на уличные беспорядки и хулиганство.
Читать дальше →

Как создать свой датасет с Киркоровым и Фейсом на Яндекс.Толоке

Время на прочтение6 мин
Количество просмотров34K


Нейронными сетями уже никого не удивишь. Практически каждый человек знает, что такое машинное обучение, линейная регрессия, random forest. Каждый год тысячи людей проходят курсы по машинному обучению на ODS и Coursera. Любой школьник за пару недель теперь может освоить keras и клепать нейроночки. Но в нейронных сетях, как и во всем машинном обучении, помимо создания хорошего алгоритма, необходимы данные, на которых алгоритм будет обучаться.

Читать дальше →

ConvNets. Создание прототипа проекта с помощью Mask R-CNN

Время на прочтение7 мин
Количество просмотров8.2K
Привет, Хабр! Мы, наконец, дождались еще одной части серии материалов от выпускника наших программ “Специалист по большим данным” и “Deep Learning”, Кирилла Данилюка, об использовании популярных на сегодняшний день нейронных сетей Mask R-CNN как части системы для классификации изображений, а именно оценки качества приготовленного блюда по набору данных с сенсоров.

Рассмотрев в предыдущей статье игрушечный набор данных, состоящий из изображений дорожных знаков, теперь мы можем перейти к решению задачи, с которой я столкнулся в реальной жизни: «Возможно ли реализовать Deep Learning алгоритм, который мог бы отличить блюда высокого качества от плохих блюд по одной фотографии?». Вкратце, бизнес хотел вот это:

Что представляет бизнес, когда думает о машинном обучении:
Читать дальше →

Humansnotinvited: разгадываем капчу на bash

Время на прочтение5 мин
Количество просмотров29K
Приветствую, дорогой читатель!

Многие из Вас встречались с капчей — автоматическим тестом Тьюринга. Она позволяет отделить реальных людей от различных ботов. В последнее время очень популярной стала reCAPTCHA от Google Inc. На ней Вы должны выбрать изображения, содержащие некие объекты, к примеру, автомобили. Относительно недавно появился сайт, который делает ровно наоборот: отделяет ботов от людей.
Читать дальше →

Распознавание сцен на изображениях с помощью глубоких свёрточных нейронных сетей

Время на прочтение10 мин
Количество просмотров18K
Многие продукты нашей компании работают с изображениями. Некоторое время назад мы решили добавить в такие сервисы «умный» поиск по фотографиям, их теггирование. Такая функциональность будет входить в Computer Vision API для дальнейшего использования в продуктах компании. Одним из важных способов теггирования изображений является теггирование по сценам, когда в результате мы получаем что-то такое:


Читать дальше →

Улучшение качества изображения с помощью нейронной сети

Время на прочтение2 мин
Количество просмотров65K
Сегодня, хочу рассказать об интересном подходе по улучшению качества изображения. Официальное название подхода Super Resolution. Улучшение качества изображения программными методами известно с начала появления цифровых снимков, но в последние 3 года произошёл качественный скачок, вызванный использованием нейронных сетей.


Пример улучшения качества изображения с использованием технологии Super Resolution.
Читать дальше →

Вклад авторов