Обработка изображений *

Работаем с фото и видео

СтатьиПостыНовостиАвторыКомпании

m1rko 4 дек 2017 в 07:20

Нейросеть для определения лиц, встроенная в смартфон

9 мин

9.1K

Проектирование API * Алгоритмы * Обработка изображений * Разработка мобильных приложений * iOS *

Перевод

Apple начала использовать глубинное обучение для определения лиц начиная с iOS 10. С выпуском фреймворка Vision разработчики теперь могут использовать в своих приложениях эту технологию и многие другие алгоритмы машинного зрения. При разработке фреймворка пришлось преодолеть значительные проблемы, чтобы сохранить приватность пользователей и эффективно работать на железе мобильного устройства. В статье обсуждаются эти проблемы и описывается, как работает алгоритм.

Введение

Впервые определение лиц в публичных API появилось во фреймворке Core Image через класс CIDetector. Эти API работали и в собственных приложениях Apple, таких как Photos. Самая первая версия CIDetector использовала для определения метод на базе алгоритма Виолы — Джонса [1]. Последовательные улучшения CIDetector были основаны на достижениях традиционного машинного зрения.

С появлением глубинного обучения и его применения к проблемам машинного зрения точность систем определения лиц сделала значительный шаг вперёд. Нам пришлось полностью переосмыслить наш подход, чтобы извлечь выгоду из этой смены парадигмы. По сравнению с традиционным машинным зрением модели в глубинном обучении требуют на порядок больше памяти, намного больше дискового пространства и больше вычислительных ресурсов.

Читать дальше →

+15

Vasyutka 3 дек 2017 в 23:15

Капсульные сети от Хинтона

6 мин

22K

Блог компании RecognitorМашинное обучение * Обработка изображений *

27 октября 2017 года появилась статья доктора Джофри Хинтона с соавторами из Google Brain. Хинтон — более чем известный ученый в области машинного обучения. Он в свое время разработал математику обратного распространения ошибок, был научным руководителем Яна Лекуна — автора архитектуры сверточных сетей.

Хоть презентация была достаточно скромная, корректно говорить о революционном изменении подхода к искусственным нейронным сетям (ИНС). Назвали новый подход «капсульные сети». Пока в российском сегменте интернета мало информации о них, поэтому восполню этот пробел.

Читать дальше →

+27

ZlodeiBaal 1 дек 2017 в 02:50

Можно ли запихнуть распознавание номеров в любой тамагочи?

11 мин

19K

Блог компании RecognitorАлгоритмы * Машинное обучение * Обработка изображений *

Про распознавание номеров мы рассказываем на Хабре давным давно. Надеюсь даже интересно. Похоже настало время рассказать как это применяется, зачем это вообще нужно, куда это можно запихнуть. А самое главное — как это изменяется в последние годы с приходом новых алгоритмов машинного зрения.

+21

SlavikMIPT 30 ноя 2017 в 14:48

Биороботы нашего времени — избавляемся от рутины вместе с Telegram. Реальный кейс без фантазий

5 мин

28K

Блог компании VDS.SH / DEDIC.SHPHP * Python * Интерфейсы * Обработка изображений *

В интернетах не прекращается хайп вокруг чат-ботов (в частности, Telegram) благодаря шуму в СМИ, неоспоримых достоинствах платформы, политике продвижения, средствам разработки и т.д.

Смотришь новости: ну жизни нет без чат-ботов!
Да если их не будет, поезда с рельс сойдут, упадут самолеты, погибнут люди от тоски, когда не смогут найти картинки с котиками.

Но давайте положим руку на сердце: когда последний раз вы что-то заказывали в интернет-магазине через чат-бот?

Кто все эти люди, которые заказывают разработку ботов для своих магазинов?

Типичный чат-бот магазина Vasya Limited:
>> автоматизирует ~~поток~~ водопад заявок из 5 человек в день,
>> сливает 4 из 5 заявок, кровью добытых через Яндекс-Директ,
>> если повезет, человек найдет номер телефона и позвонит,
>> но, вероятней всего, «Эээ, куда жать?», а потом закроет и уйдет гуглить дальше.

Чем занят владелец, когда продажи «автоматизированы»:
>> вносит заказы в excel-таблицу
>> заполняет почтовые бланки на посылках
>> стоит в очереди на почте с кучей посылок (каждый день!)
>> вносит трек номера в excel-таблицу, затем рассылает клиентам

Может, хватит на ровном месте встраивать «технологии» туда, где действительно нужен человек, в то время как люди загружены рутиной для роботов?

Читать дальше →

+63

m1rko 28 ноя 2017 в 13:57

Как Discord каждый день изменяет размер 150 млн картинок с помощью Go и C++

7 мин

20K

C++ * Go * Open source * Обработка изображений *

Перевод

Хотя Discord — это приложение для голосового и текстового чата, каждый день через него проходит более ста миллионов изображений. Конечно, мы бы хотели, чтобы задача была простой: просто перенаправить картинки вашим друзьям по всем каналам. Но в реальности доставка этих изображений создаёт довольно большие технические проблемы. Прямая ссылка на картинки выдаст хосту с картинкой IP-адреса пользователей, а большие изображения расходуют много трафика. Чтобы избежать этих проблем, требуется промежуточный сервис, который будет получать изображения для пользователей и изменять их размер для экономии трафика.

Встречайте Image Proxy

Для выполнения этой работы мы создали сервис Python и креативно назвали его Image Proxy. Он загружает картинки с удалённых URL, а затем выполняет ресурсоёмкую задачу по ресайзингу с помощью пакета pillow-simd. Этот пакет работает удивительно быстро, используя где только возможно для ускорения ресайзинга инструкции x86 SSE. Image Proxy будет получать HTTP-запрос, содержащий URL, чтобы загрузить, изменить размер и, наконец, выдать окончательное изображение.

Читать дальше →

+30

vedenev 26 ноя 2017 в 12:25

Текстовые капчи легко распознаются нейронными сетями глубокого обучения

11 мин

60K

Спам и антиспамОбработка изображений * Машинное обучение *

Из песочницы

Нейронные сети глубокого обучения достигли больших успехов в распознавании образов. В тоже время текстовые капчи до сих пор используются в некоторых известных сервисах бесплатной электронной почты. Интересно смогут ли нейронные сети глубоко обучения справится с задачей распознавания текстовой капчи? Если да то как?

Читать дальше →

+71

102

chookcha 21 ноя 2017 в 10:20

Использование SVG в качестве Placeholder’a

7 мин

38K

Блог компании EdisonВеб-разработка * Обработка изображений * Графический дизайн * Usability *

Перевод

Генерация SVG из изображений может использоваться для Placeholder’ов.

Я занимаюсь оптимизацией изображений и картинок для их быстрой загрузки. Одна из самых интересных областей исследования это Placeholder’ы: что показывать, когда изображение еще не загружено.

В последние дни я сталкивался с некоторыми методами загрузки, которые используют SVG, и я хотел бы описать их в этом посте.

В этом посте мы рассмотрим следующие темы:

Обзор различных типов Placeholder’ов
Placeholder на основе SVG (контуры, фигуры и силуэты)
Автоматизация процесса.

Читать дальше →

+114

randall 17 ноя 2017 в 12:41

Компьютерное зрение, разработка облака и конкурс

6 мин

8.7K

Блог компании IvideonОбработка изображений * Облачные вычисления * Машинное обучение *

Внезапная лошадь из работы «Spatial Memory for Context Reasoning in Object Detection» (представлена на ICCV 2017)

У нас есть несколько новостей, но скучно писать просто о конкурсе, в котором можно выиграть камеру для дома или о вакансии нашей облачной команды. Поэтому начнем мы с информации, которая будет интересна всем (ок, почти всем – речь пойдет о видеоаналитике).

Недавно завершилась крупнейшая конференция по технологиям компьютерного зрения – International Conference on Computer Vision 2017. На ней команды ученых и представители исследовательских подразделений различных корпораций представили разработки по улучшению фото, генерации изображений по описанию, заглядыванию за угол с помощью анализа света, etc. Мы расскажем о нескольких интересных решениях, которые могут найти применение в области видеонаблюдения.

+24

evgri 13 ноя 2017 в 13:40

Обнаружение птиц с помощью Azure ML Workbench

19 мин

5.5K

Блог компании MicrosoftОбработка изображений * Машинное обучение * Microsoft Azure * Big Data *

Задумывались ли вы, что перед биологами, помимо всего прочего стоит ряд важных задач? Им необходимо анализировать огромные объёмы информации для отслеживания динамики популяции, выявления редких видов и оценки воздействия. Под катом мы хотим рассказать вам о проекте по идентификации красноногих моевок на фотографиях, сделанных с помощью камер слежения. Вы узнаете подробности о разметке данных, обучении модели на платформе Azure Machine Learning Workbench с использованием Microsoft Cognitive Toolkit (CNTK) и Tensorflow, а также развертывание веб-службы прогнозирования.

Читать дальше →

+10

rakhlin 13 ноя 2017 в 11:01

Pediatric Bone Age Challenge. Deep Learning и много, много костей

7 мин

15K

Блог компании Open Data ScienceАлгоритмы * Исследования и прогнозы в IT * Машинное обучение * Обработка изображений *

Cоревнование по определению костного возраста. Заметки участника

6-го октября на радары Володи Игловикова попал очень интересный конкурс, организованный американскими рентгенологами из The Radiological Society of North America (RSNA) и Radiology Informatics Committee (RIC), и он бросил клич в сообществе ODS.ai

Целью конкурса было создание автоматической системы для определения костного возраста по рентгеновским снимкам руки. Костный возраст используется в педиатрии для комплексной оценки физического развития детей, и его отклонение от хронологического помогает выявить нарушения в работе различных систем организма. Когда дело касается медицинских проектов, меня уговаривать не надо, но это соревнование стартовало в августе и вступать в него за 8 дней до окончания выглядело авантюрой. Чтобы хотя бы начать препроцессинг снимков, требовались маски рук, и Володя сделал их за несколько дней, отличного качества, и поделился с остальными. Как он так быстро справился с этой тяжёлой задачей, включавшей ручную разметку – загадка, и об этом он, возможно, напишет сам. С масками затея уже не выглядела безнадёжной, я решился участвовать и в конечном счёте успел реализовать почти все планы.

Задача

Костный возраст (bone age) — это условный возраст, которому соответствует уровень развития костей детей и подростков. Формирование скелета происходит в несколько стадий. Это используется в педиатрии для сравнения костного возраста с хронологическим, что позволяет вовремя заметить нарушения в работе эндокринной системы и системы обмена веществ.

Для определения костного возраста в основном используются две методики — GP Грейлиха и Пайла (Greulich and Pyle) и TW2 Таннера, Уайтхауза и Хили (Tanner, Whitehouse, Healy), разработанные во второй половине XX века. Обе методики основаны на рентгенограмме кисти и лучезапястного сустава. Благодаря большому количеству участков растущей ткани в костях и ядер окостенения,

Читать дальше →

+54

s_shestakov 12 ноя 2017 в 14:41

Сжимаем несжимаемое – как уменьшить дистрибутив мобильного приложения

6 мин

19K

Блог компании PlayrixОбработка изображений * Разработка игр * Разработка мобильных приложений *

Сегодня в магазинах приложений для платформ iOS и Android существует ограничение на размер приложения в 100 МБ. Магазин Apple для приложений, которые не укладываются в этот лимит, запрещает закачку при помощи мобильного интернета. В Google Play же это строгий лимит на размер APK – все, что не укладывается в него, должно быть вынесено в файлы дополнений. Для пользователей с платным трафиком закачка большого приложения может быть довольно затратной, поэтому его размер нужно стараться уменьшить всеми силами.

В рамках этой статьи мы расскажем, с помощью каких приемов мы смогли уложиться в это ограничение на проекте Gardenscapes для платформы iOS. Статья касается в основном мобильных игр, но методы сжатия универсальны и могут пригодиться для любых проектов с тяжелой графикой. Для того, чтобы говорить о методах сжатия, нужно определиться с тем, как формируется архив приложения.

Читать дальше →

+31

m1rko 8 ноя 2017 в 08:30

Глобальная теплокарта Strava: теперь в 6 раз горячее

8 мин

24K

Big Data * Scala * Алгоритмы * Обработка изображений * Проектирование и рефакторинг *

Перевод

Рад объявить о первом крупном обновлении глобальной тепловой карты в Strava Labs c 2015 года. Это обновление включает в себя в шесть раз больше данных, чем раньше — в сумме 1 миллиард активностей со всей базы Strava по сентябрь 2017 года.

Наша глобальная теплокарта — самая крупная и подробная, и это самый прекрасный в мире набор данных такого рода. Это прямая визуализация активностей глобальной сети атлетов Strava. Чтобы дать представление о масштабе, то новая теплокарта включает в себя:

1 миллиард активностей
3 триллиона точек долготы/широты
13 триллионов пикселей после растрирования
10 терабайт исходных данных
Общая дистанция маршрутов: 27 миллиардов километров
Запись общего времени активности: 200 тысяч лет
5% земной суши покрыто тайлами

Тепловая карта Москвы демонстрирует функцию поворота/наклона в Mapbox GL

Читать дальше →

+31

MZherokov 8 ноя 2017 в 07:24

Театр и ИТ: Шекспиру и не снилось

9 мин

12K

Блог компании ГК ЛАНИТCGI (графика) * IT-инфраструктура * Компьютерная анимация * Обработка изображений *

Привычно читать о проникновении информационных технологий на производство, в финансы, логистику, ритейл и другие сферы. А что если соединить театр и ИТ?

Мне повезло участвовать в таком проекте и следовать не привычному ТЗ, а режиссерскому замыслу, который окончательно формировался на моих глазах. В Московском драматическом театре имени М. Н. Ермоловой мы устанавливали аудиовизуальное оборудование, и пару месяцев я был полноправным участником репетиций – следил за процессом из-за кулис и с балкона, где располагалось рабочее место инженера видеомонтажа, настраивал технику и вносил коррективы.

О наших экспериментах в области театрального искусства, о сложностях и победах я и расскажу. В этом посте также будет много фотографий: театр ведь зрелищное искусство. А для самых нетерпеливых сразу под катом выкладываю видеоспойлер. В этом видеоролике нет технических деталей (в отличие от поста), зато всего за три минуты вы узнаете о совместных проектах ЛАНИТ и Ермоловского театра.

+39

ogurtsov 30 окт 2017 в 16:28

Глубокое обучение с R и Keras на примере Carvana Image Masking Challenge

18 мин

14K

Блог компании Open Data ScienceR * Машинное обучение * Обработка изображений * Параллельное программирование *

Привет, Хабр!

Пользователи R долгое время были лишены возможности приобщиться к deep learning-у, оставаясь в рамках одного языка программирования. С выходом MXNet ситуация стала меняться, но своеобразная документация и частые изменения, ломающие обратную совместимость, все еще ограничивают популярность данной библиотеки.

Гораздо привлекательнее выглядит использование R-интерфейсов к TensorFlow и Keras с бекендами на выбор (TensorFlow, Theano, CNTK), подробной документацией и множеством примеров. В этом сообщении будет разобрано решение задачи сегментации изображений на примере соревнования Carvana Image Masking Challenge (победители), в котором требуется научиться отделять автомобили, сфотографированные с 16 разных ракурсов, от фона. "Нейросетевая" часть полностью реализована на Keras, за обработку изображений отвечает magick (интерфейс к ImageMagick), параллельная обработка обеспечивается parallel+doParallel+foreach (Windows) или parallel+doMC+foreach (Linux).

Читать дальше →

+53

Karaoke 30 окт 2017 в 06:59

Взлом Bitcoin по телевизору: обфускуй, не обфускуй, все равно получим QR

13 мин

49K

Блог компании EdisonИнформационная безопасность * Криптография * Обработка изображений *

Перевод

История про то, как секретный ключ для Bitcoin’a в виде QR-кода восстановили из размазанной картинки

Мы могли бы просто назвать этот пост «Насколько хорош QR-код и как мы его восстановили практически из ничего». Но гораздо интереснее, когда QR-код является ключом к кошельку на сумму $1000 в битках.

+113

DenisN03 28 окт 2017 в 19:22

Убираем радиальное искажение с фото и видео при помощи библиотеки openCV и языка python

5 мин

30K

Python * Обработка изображений * Работа с видео *

Туториал

Из песочницы

В данной статье будет рассказываться о применении библиотеки машинного зрения (openCV) для удаления эффекта радиального искажения (дисторсии) с фото и видео. Данный эффект также известен как эффект рыбьего глаза (fisheye) или distortion. Решение написать данную статью было принято после нескольких дней поиска информации в интернете. Не смотря на то, что есть гайды на английском языке, они не объясняют как правильно установить openCV, чтобы все работало. В статье присутствует готовый код.

Сразу привожу фото итогового результата. Слева оригинальное фото, справа — обработанное:

before after

Читать дальше →

+15

N01Z3 26 окт 2017 в 12:04

Конкурс Topcoder «Konica-Minolta Pathological Image Segmentation Challenge». Заметки участника

5 мин

4.4K

Блог компании AvitoTechАлгоритмы * Машинное обучение * Обработка изображений *

Привет! Пока мы ждём субботу и Avito Data Science Meetup: Computer Vision, расскажу вам про моё участие в соревновании по машинному обучению KONICA MINOLTA Pathological Image Segmentation Challenge. Хотя я уделил этому всего несколько дней, мне повезло занять 2 место. Описание решения и детективная история под катом.

Читать дальше →

+20

homm 26 окт 2017 в 07:53

Качественное уменьшение изображений за константное время

8 мин

29K

Высоконагруженные системы * Алгоритмы * Обработка изображений *

Хочу поделиться очень простым и эффективным методом ресайза изображении, который работает за константное время относительно размера исходного изображения и дает неожиданно качественный результат. Метод применим для любых языков и приложений.

Для начала давайте порассуждаем логически. Если вы делаете ресайз изображения, наверное вы хотите чтобы результат хотя бы отдаленно напоминал оригинал. Для этого нужно учесть как можно больше информации из исходного изображения. Вы слышали о методе «ближайшего соседа»? В этом методе для каждой точки конечного изображения просто берется какая-то одна точка из исходного изображения в неизменном виде.

Уменьшение изображения 4928×3280 до 256×170 ближайшим соседом.

Рекомендую смотреть примеры из статьи в браузере в масштабе 100% и без ретины. То есть по максимуму исключить ресайз при просмотре.

Результат не представляет ничего хорошего. Изображение дерганое, зернистое, даже трудно понять что на нем изображено. Особенно если на исходном изображении было много мелких деталей или оно само было зернистым. Почему так получается? Потому что в конечном изображении было учтено очень мало информации из исходного. Если условно отметить на исходном изображении те точки, которые попадают в конечное, получится вот такая сеточка:

Точки, которые попадут в конечное изображение размером 20×13.

Читать дальше →

+73

SmartEngines 25 окт 2017 в 14:49

Оптимизация метода Виолы и Джонса для платформы Эльбрус

12 мин

8.5K

Блог компании Smart EnginesПрограммирование * Обработка изображений * Машинное обучение * Алгоритмы *

Метод (алгоритм) Виолы и Джонса [1] является одним из способов выявления границ объектов на изображении. Хотя алгоритм, разработанный П. Виолой и М. Джонсом еще в 2001 году, был первоначально ориентирован на быстрый поиск лиц на изображениях, сейчас разнообразные вариации этого популярного алгоритма с успехом используются в различных задачах поиска границ:

образов пешеходов [2],
образов автомобилей [3],
образов дорожных знаков [4],

а также иных объектов, присутствующих на изображениях примерно в одном ракурсе. Такого рода популярность модификаций метода Виолы и Джонса объясняется высокой точностью поиска объектов и высокую устойчивость как к геометрическим искажениям, таки и к изменениям яркости.

Читать дальше →

PatientZero 19 окт 2017 в 07:51

Пишем движок трёхмерного ретро-шутера с нуля

15 мин

35K

Обработка изображений * Разработка игр *

Перевод

Мне всегда нравились классические шутеры от первого лица 90-х. Я часами просиживал за моим 386-м, играя Doom, потрясённый тем, как кому-то удалось написать код, отрисовывающий на моём экране 3D-графику в реальном времени с отличным разрешением 320x200. Я немного знал программирование (только что начал изучать BASIC), поэтому осознавал, что глубоко внутри это всего лишь куча математики и байтов, записываемых в видеопамять. Но в то время даже массивы для меня были довольно сложным понятием, поэтому я не мог даже начать постигать всю сложность 3D-рендеринга.

В то время все писали 3D-движки с нуля, потому что другого способа не было. Но сегодня написание логики 3D-рендеринга с нуля скорее всего окажется плохой идеей. Очень плохой. Почти как изобретение колеса! При наличии огромного количества 3D-движков и библиотек, намного более хорошо протестированных и оптимизированных, чем то, что вы можете сделать сами, нет никаких причин для разумного разработчика начинать писать собственный движок.

Если только…

Представьте, что вы можете вернуться в машине времени назад в 90-е, когда ещё не было OpenGL и DirectX, не было видеопроцессоров. Всё что у вас есть — ЦП и экран, заполненный пикселями. Вам всё придётся писать самому.

Если эта идея кажется вам интересной, то вы не одиноки: это именно то, что можно сделать на такой выдуманной консоли, как TIC-80.

Читать дальше →

+65

1 2 ...

74 75

77 78 ...

122 123

Обработка изображений *

Нейросеть для определения лиц, встроенная в смартфон

Введение

Капсульные сети от Хинтона

Можно ли запихнуть распознавание номеров в любой тамагочи?

Биороботы нашего времени — избавляемся от рутины вместе с Telegram. Реальный кейс без фантазий

Кто все эти люди, которые заказывают разработку ботов для своих магазинов?

Как Discord каждый день изменяет размер 150 млн картинок с помощью Go и C++

Встречайте Image Proxy

Текстовые капчи легко распознаются нейронными сетями глубокого обучения

Использование SVG в качестве Placeholder’a

Компьютерное зрение, разработка облака и конкурс

Обнаружение птиц с помощью Azure ML Workbench

Pediatric Bone Age Challenge. Deep Learning и много, много костей

Cоревнование по определению костного возраста. Заметки участника

Задача

Сжимаем несжимаемое – как уменьшить дистрибутив мобильного приложения

Глобальная теплокарта Strava: теперь в 6 раз горячее

Театр и ИТ: Шекспиру и не снилось

Ближайшие события

Глубокое обучение с R и Keras на примере Carvana Image Masking Challenge

Взлом Bitcoin по телевизору: обфускуй, не обфускуй, все равно получим QR

История про то, как секретный ключ для Bitcoin’a в виде QR-кода восстановили из размазанной картинки

Убираем радиальное искажение с фото и видео при помощи библиотеки openCV и языка python

Конкурс Topcoder «Konica-Minolta Pathological Image Segmentation Challenge». Заметки участника

Качественное уменьшение изображений за константное время

Оптимизация метода Виолы и Джонса для платформы Эльбрус

Пишем движок трёхмерного ретро-шутера с нуля

Вклад авторов