Как стать автором

Обработка изображений *

Работаем с фото и видео

СтатьиПостыНовостиАвторыКомпании

m1rko 15 мая 2017 в 07:02

Создание JPEG из ниоткуда

4 мин

22K

ГовнокодНенормальное программирование*Обработка изображений*Тестирование IT-систем*

Перевод

Вот интересная демонстрация возможностей afl; меня реально удивило, что она работает!

$ mkdir in_dir
$ echo 'hello' >in_dir/hello
$ ./afl-fuzz -i in_dir -o out_dir ./jpeg-9a/djpeg

В сущности, я создал текстовый файл только со словом "hello" и попросил фаззер выдавать поток в программу, которая ожидает на входе изображение JPEG (djpeg это простая утилита, которая идёт вместе с распространённой графической библиотекой IJG jpeg; libjpeg-turbo тоже должна подойти). Конечно, мои входные данные не похожи на валидное изображение, так что утилита быстро отвергает их:

$ ./djpeg '../out_dir/queue/id:000000,orig:hello'
Not a JPEG file: starts with 0x68 0x65

Читать дальше →

+54

saul 15 мая 2017 в 06:52

Deep Learning против рака. Конкурс Intel

2 мин

5.5K

Блог компании IntelBig Data*Обработка изображений*Программирование*

Рак шейки матки — страшное заболевание, ежегодно уносящее сотни тысяч жизней. Но еще страшнее то, что большинство этих жизней можно было спасти. Рак шейки матки развивается очень медленно, и в случае обнаружения опухоли в первые 5 лет после ее появления шанс выживания практически 100%. Таким образом, регулярные обследования могут извести это заболевание на корню. К сожалению, 85% женщин Земли регулярная медицинская помощь недоступна. Их могут спасти технологии машинного распознавания фотоснимков, снижающие требования к квалификации врачебного персонала и увеличивающие процент правильных диагнозов. Именно такие алгоритмы распознавания и создаются в рамках конкурса программистов Intel & MobileODT Cervical Cancer Screening, в котором мы приглашаем вас поучаствовать.

Читать дальше →

+11

PatientZero 12 мая 2017 в 22:04

Обзор исходного кода Quake 2

51 мин

62K

Обработка изображений*Разработка игр*Реверс-инжиниринг*

Перевод

Около месяца свободного времени я уделил чтению исходного кода Quake II. Это был удивительный и поучительный опыт, потому что в движок idTech3 внесено большое изменение: Quake 1, Quake World и QuakeGL объединены в одну красивую архитектуру кода. Особенно был интересен способ, которым достигли модульности, несмотря на то, что язык программирования C не обеспечивает полиморфизма.

Quake II во многих отношениях является блестящим образцом программного обеспечения, потому что это был самый популярный (по количеству лицензий) трёхмерный движок всех времён. На его основе было создано более 30 игр. Кроме того, он ознаменовал переход игровой индустрии от программной/8-битной системы цветов к аппаратной/24-битной. Этот переход произошёл примерно в 1997 году.

Поэтому я крайне рекомендую всем, кто любит программирование, изучить этот движок. Как обычно, я вёл бесконечное количество заметок, затем подчистил их и опубликовал как статью, чтобы сэкономить вам несколько часов.

Процесс «подчистки» меня сильно увлёк: в статье теперь более 40 мегабайт видео, скриншотов и иллюстраций. Сейчас я не знаю, стоили ли мои труды того, и нужно ли публиковать в будущем необработанные заметки в ASCII, выскажите своё мнение.

+109

PatientZero 11 мая 2017 в 13:58

Опасайтесь прозрачных пикселей

6 мин

46K

Обработка изображений*Разработка игр*

Перевод

Если вы используете в своей игре спрайты с прозрачностью (а обычно так и бывает, как минимум для UI), то вам, вероятно, стоит уделить внимание к полностью прозрачным пикселям текстур (или «текселам»).

Даже если значение альфа-канала равно 0, с пикселем всё равно связано значение цвета. Этот цвет ни на что не влияет, так ведь? В конце концов, пиксель полностью прозрачен, кому есть дело до его цвета…

Так вот, на самом деле этот цвет важен, если этого не понимать, то можно получить артефакты, которые заметны во многих играх. Чаще всего искажения очень малы и их не заметно, но иногда они действительно бросаются в глаза.

Читать дальше →

+144

SmartEngines 4 мая 2017 в 10:16

Сегментация текстовых строк документов на символы с помощью сверточных и рекуррентных нейронных сетей

11 мин

23K

Блог компании Smart EnginesПрограммирование*Обработка изображений*Машинное обучение*Алгоритмы*

Сегментация строки на символы является одним из важнейших этапов в процессе оптического распознавания символов (OCR), в частности, при оптическом распознавании изображений документов. Сегментацией строки называется декомпозиция изображения, содержащего последовательность символов, на фрагменты, содержащие отдельные символы.

Важность сегментации обусловлена тем обстоятельством, что в основе большинства современных систем оптического распознавания текста лежат классификаторы (в том числе — нейросетевые) отдельных символов, а не слов или фрагментов текста. В таких системах ошибки неправильного проставления разрезов между символами как правило являются причиной львиной доли ошибок конечного распознавания.

Поиск границ символов усложняется из-за артефактов печати и оцифровки (сканирования) документа, приводящим к “рассыпанию” и “склеиванию” символов. В случае использования стационарных или мобильных малоразмерных видеокамер спектр артефактов оцифровки существенно пополняется: возможны дефокусировка и смазывание, проективные искажения, деформирование и изгибы документа. При съемке камерой в естественных сценах на изображениях часто возникают паразитные перепады яркости (тени, отражения), а также цветовые искажения и цифровой шум в результате низкой освещенности. На рисунке ниже показаны примеры сложных случаев при сегментации полей паспорта РФ.

В этой статье мы расскажем о методе сегментации символов текстовых строк документов, разработанном нами в Smart Engines, основанный на обучении сверточных и рекуррентных нейронных сетей. Основным рассматриваемым в работе документом является паспорт РФ.

Читать дальше →

+39

mobilz 2 мая 2017 в 00:04

Компьютерное зрение на примере приложения для IKEA. Часть 1

8 мин

46K

Node.JS*Обработка изображений*Разработка мобильных приложений*

Туториал

Готовился к очередному хакатону, решил обновить свои знания в области компьютерного зрения. В прошлый раз задачу распознавания номеров авто в видеопотоке я так и не смог решить быстро «в лоб». Сейчас, поразмыслив, решил немного упростить задачу. Было много идей, листал фотки в телефоне и наткнулся на привычный кейс для всех, кто бывал в магазине ikea — фотографию с чеком, где указан номер товара и его положение на складе самообслуживания.

Читать дальше →

+68

ubobrov 23 апр 2017 в 21:14

Детектирование и отслеживание множественных объектов в видеопотоке на FPGA

16 мин

13K

Программирование микроконтроллеров*Обработка изображений*Алгоритмы*FPGA*

В этой статье я хочу рассказать о реализации системы обнаружения и отслеживания множественных объектов в видеопотоке. Данная статья базируется на двух предыдущих: Детектирование движения в видеопотоке на FPGA и Фильтрация изображения методом математической морфологии на FPGA. Захват и первичная обработка изображения осуществляется при помощи методов, описанных в первой статье, а фильтрация изображения описана во второй.

Следуя целям, поставленным в первой статье, я решил реализовать алгоритм отрисовки рамки вокруг обнаруженного объекта. В процессе выполнения этой задачи, я столкнулся с вопросом: а вокруг какого именно объекта надо рисовать рамку? Объектов, попавших в кадр после фильтрации, может оказаться множество: одни из них маленькие, а другие большие. Если рисовать одну рамку вокруг всех объектов, попавших в кадр, то это делается не сложно, но результат работы такой системы вряд ли кому будет интересен.

Читать дальше →

+36

atomlib 20 апр 2017 в 02:46

Псевдотонирование изображений: одиннадцать алгоритмов и исходники

12 мин

30K

Алгоритмы*Обработка изображений*

Перевод

Псевдотонирование: обзор

Про сегодняшнюю тему для программирования графики — псевдотонирование (дизеринг, псевдосмешение цветов) — я получаю много писем, что может показаться удивительным. Вы можете подумать, что псевдотонирование — это не то, чем программисты должны заниматься в 2012 году. Разве псевдосмешение — не артефакт история технологий, архаизм времён, когда дисплей с 16 миллионами цветов программистам и пользователям мог только сниться? Почему я пишу статью о псевдотонировании в эпоху, когда дешевые мобильные телефоны работают с великолепием 32-битной графики?

На самом деле псевдотонирование по-прежнему остаётся уникальным методом не только по практическим соображениям (например, подготовка полноцветного изображения для печати на чёрно-белом принтере), но и по художественным. Дизеринг также находит применение в веб-дизайне, где этот полезный метод используется для сокращения числа цветов изображения, что уменьшает размер файла (и трафик) без ущерба для качества. Он также используется при уменьшении цифровых фотографий в формате RAW в 48 или 64 бита на пиксель до RGB в 24 бита на пиксель для редактирования.

И это — применения лишь в области изображений. В звуке дизеринг тоже играет ключевую роль, но боюсь, обсуждать здесь дизеринг аудио я не буду. Только псевдотонирование изображений.

Читать дальше →

+62

homm 19 апр 2017 в 16:13

Как я сделал самый быстрый ресайз изображений. Часть 2, SIMD

15 мин

28K

Обработка изображений*Высоконагруженные системы*Python*C*

Это продолжение цикла статей о том, как я занимался оптимизацией и получил самый быстрый ресайз на современных x86 процессорах. В каждой статье я рассказываю часть истории, и надеюсь подтолкнуть еще кого-то заняться оптимизацией своего или чужого кода. В предыдущих сериях:

→ Часть 0
→ Часть 1, общие оптимизации

В прошлый раз мы получили ускорение в среднем в 2,5 раза без изменения подхода. В этот раз я покажу, как применять SIMD-подход и получить ускорение еще в 3,5 раза. Конечно, применение SIMD для обработки графики не является ноу-хау, можно даже сказать, что SIMD был придуман для этого. Но на практике очень мало разработчиков используют его даже в задачах обработки изображений. Например, довольно известные и распространенные библиотеки ImageMagick и LibGD написаны без использования SIMD. Отчасти так происходит потому, что SIMD-подход объективно сложнее и не кроссплатформенный, а отчасти потому, что по нему мало информации. Довольно просто найти азы, но мало детальных материалов и разбора реальных задач. От этого на Stack Overflow очень много вопросов буквально о каждой мелочи: как загрузить данные, как распаковать, запаковать. Видно, что всем приходится набивать шишки самостоятельно.

Читать дальше →

+64

ubobrov 8 апр 2017 в 12:00

Фильтрация изображения методом математической морфологии на FPGA

7 мин

15K

FPGA*Алгоритмы*Обработка изображений*Программирование микроконтроллеров*

В этой статье я хочу рассмотреть один, на мой взгляд, достойный внимания подход к фильтрации изображений методом математической морфологии. Про математическую морфологию написано много статей, и одна из них размещена здесь на хабре. Читателю, незнакомому с данной темой, я рекомендую сначала ознакомиться с материалом по ссылке выше.

В статье про фильтрацию изображения я рассказывал про метод фильтрации медианным фильтром. Данный фильтр показал себя очень даже неплохо, но у него есть ряд ограничений и неудобств:
громоздкий даже в реализации 3x3:

требует формирование оконной функции
очень сложен для расширения окна
большое запаздывание (latency) при последовательном соединении с другими оконными функциями.

Все эти неудобства нисколько не умаляют степень его применимости в цифровых системах обработки изображений, однако существует и иной подход.

Читать дальше →

+33

ternaus 7 апр 2017 в 11:00

Kaggle: Британские спутниковые снимки. Как мы взяли третье место

22 мин

42K

Блог компании Open Data SciencePython*Алгоритмы*Машинное обучение*Обработка изображений*

Сразу оговорюсь, что данный текст — это не сухая выжимка основных идей с красивыми графиками и обилием технических терминов (такой текст называется научной статьей и я его обязательно напишу, но потом, когда нам заплатят призовые $20000, а то, не дай бог, начнутся разговоры про лицензию, авторские права и прочее.) (UPD: https://arxiv.org/abs/1706.06169). К моему сожалению, пока устаканиваются все детали, мы не можем поделиться кодом, который написали под эту задачу, так как хотим получить деньги. Как всё утрясётся — обязательно займемся этим вопросом. (UPD: https://github.com/ternaus/kaggle_dstl_submission)

Так вот, данный текст — это скорее байки по мотивам, в которых, с одной стороны, всё — правда, а с другой, обилие лирических отступлений и прочей отсебятины не позволяет рассматривать его как что-то наукоемкое, а скорее просто как полезное и увлекательное чтиво, цель которого показать, как может происходить процесс работы над задачами в дисциплине соревновательного машинного обучения. Кроме того, в тексте достаточно много лексикона, который специфичен для Kaggle и что-то я буду по ходу объяснять, а что-то оставлю так, например, вопрос про гусей раскрыт не будет.

+74

saul 6 апр 2017 в 08:30

Intel Media SDK стал open source проектом

1 мин

9.5K

Блог компании IntelПрограммирование*Обработка изображений*Open source*

В блоге Intel мы уже неоднократно рассказывали о Intel Media SDK — полезном наборе библиотек для аппаратно-ускоренного кодирования, декодирования и обработки видео данных. Сейчас, можно сказать, SDK стал для кого-то еще полезнее, ведь исходный код его базовой части открыли под лицензией MIT и выложили на GitHub. Пользуясь случаем, приведем краткое описание этого продукта.

Читать дальше →

+18

waiwnf 5 апр 2017 в 09:02

Автопилот своими силами. Часть 1 — набираем обучающие данные

7 мин

24K

РобототехникаМашинное обучение*Обработка изображений*

Из песочницы

Привет, Хабр. Это пост-отчет-тьюториал про беспилотные автомобили — как (начать) делать свой без расходов на оборудование. Весь код доступен на github, и помимо прочего вы научитесь легко генерить такие класные картинки:

SLAM trajectory + map example

Поехали!

Читать дальше →

+42

N01Z3 4 апр 2017 в 12:02

Второе почетное. Заметки участника конкурса Dstl Satellite Imagery Feature Detection

9 мин

15K

Блог компании AvitoTechОбработка изображений*Машинное обучение*Анализ и проектирование систем*Алгоритмы*

Недавно закончилось соревнование по машинному обучению Dstl Satellite Imagery Feature Detection в котором приняло участие аж трое сотрудников Avito. Я хочу поделиться опытом участия от своего лица и рассказать о решении.

+58

Tiberius 3 апр 2017 в 22:52

This is Science: наблюдая за ростом растений

2 мин

5.9K

РобототехникаMatlab*Визуализация данных*Обработка изображений*Алгоритмы*

Одна из проблем современной биологии – как отследить/запечатлеть объекты, которые постоянно находятся в движении. С этой ж проблемой сталкивается любой родитель, когда пытается сфотографировать маленького ребёнка: то фото размазалось, то поплыл фокус, то не хватает контрастности. Конечно, в биологии существует целый ряд инструментов, как добиться фиксации тех или иных биологических объектов. К примеру, мушек можно «усыпить» холодом, клетки «затормозить» с помощью химических веществ. Но что делать, если эксперимент заключается в наблюдении за ростом корней растения, которые постоянно удлиняются и извиваются. Чтобы получить одну лишь только серию фотографий могут уйти дни и даже недели кропотливой постоянной подстройки микроскопа. На выручку учёным приходят системы распознавания и автоматической коррекции изображения!

За микроскопическими подробностями жизни растений добро пожаловать под кат.

+17

artem_panasyuk 3 апр 2017 в 09:10

Учим TensorFlow рисовать кириллицу

7 мин

14K

Обработка изображений*Машинное обучение*TensorFlow*Data Mining*

Из песочницы

Привет Хабр! За последние годы новые подходы в обучении нейронных сетей позволили существенно расширить сферы практического применения машинного обучения. А появление большого количества хороших высокоуровневых библиотек дало возможность проверить свои навыки специалистам разного уровня подготовки.

Имея некоторый опыт в машинном обучении, я до текущего момента не имел дело конкретно с нейронными сетями. На волне их стремительной популярности было принято решение заполнить данный пробел и заодно попробовать написать об этом статью.

Я поставил себе две цели. Первая, придумать задачу, достаточно сложную чтобы при её решении столкнуться с проблемами, возникающими в реальной жизни. И вторая, решить эту задачу с использование одной из современных библиотек, разобравшись с особенностями работы с ними.

В качестве библиотеки был выбран TensorFlow. А за задачей и её решением прошу под кат…

Читать дальше →

+57

ubobrov 30 мар 2017 в 14:57

Вращение изображения на FPGA

5 мин

16K

FPGA*Алгоритмы*Обработка изображений*Программирование микроконтроллеров*

Пол года назад я наткнулся в сети вот на это видео.

Первой мыслью было то, что это очень круто и у меня такое никогда не получится повторить. Шло время, читались статьи, изучались методы и я искал примеры реализации подобного, но к моему огорчению, в сети ничего конкретного не находилось. Наткнувшись однажды на вычисления тригонометрических функций с использованием алгоритмов CORDIC, я решил попробовать создать свою собственную вращалку изображения на ПЛИС.

Читать дальше →

+36

FuriousBoar 30 мар 2017 в 10:16

Бесплатные инструменты сжатия изображений для ускорения работы сайта

4 мин

79K

Блог компании HOSTING.cafeОбработка изображений*Веб-разработка*Тестирование веб-сервисов*

Перевод

Оптимизируйте изображения для сайтов на WordPress, Joomla или любых других, чтобы увеличить скорость загрузки и занять более высокое место в рейтингах поисковых систем.

Читать дальше →

+15

tangro 29 мар 2017 в 17:16

Реинкарнация графического отладчика PIX для DirectX 12

4 мин

7.2K

Блог компании Инфопульс УкраинаВизуализация данных*Обработка изображений*Отладка*Разработка игр*

Я люблю графические отладчики. Обычные я тоже люблю, но графические — больше. Они дают ощущение сродни заглядыванию за кулисы театра во время выступления: «ага, вот эта декорация крепится так, а этот луч света падает отсюда, а у этого шкафа нет задней стенки...». Графический отладчик пробрасывает мостик понимания между текстовым кодом приложения и полученной красивой картинкой.

Но индустрия не балует нас обилием подобного инструментария. Есть графические отладчики от Intel, NVidia и AMD, но они не работают на чипах конкурентов и предназначены не столько для разработки\отладки, сколько для бенчмарков и хвастовства своими видеокартами. Они неплохо рассказывают ЧТО и КОГДА произошло, но плохо объясняют ПОЧЕМУ и КАК ИСПРАВИТЬ.

В другом лагере находится мой любимый RenderDoc, о котором я уже писал. Прекрасная утилита, написанная ребятами из Crytek для себя и людей. Открытый код, поддержка всех вендоров, DirectX11 (с планами на Вулкан и DirectX12), куча мелких полезных мелочей.

Вторым представителем когда-то был PIX — утилита для анализа производительности DirectX9. Задумывалась она как инструмент для разработки под XBox (само название это аббревиатура от Performance Investigation for XBox), но хорошо работала и для десктопных приложений. До того момента, пока не умерла (с выходом DirectX 10/11 и новых версий Windows). Microsoft, у которого в очередной раз маркетологи победили инженеров, объявил единственным инструментом для графической отладки Visual Studio, в которой именно для этих целей было много лишнего, многого не хватало, а кое-что было и вовсе невозможно. Студия — прекрасный инструмент для программирования, но далеко не столь хорошая вещь для изучения, профилирования и отладки графического кода (тем более чужого).

Всё это уныние продолжалось несколько лет, пока инженеры Microsoft не одержали временную победу и в январе 2017 года Microsoft объявила о запуске беты полностью обновлённой версии PIX для DirectX 12!

Давайте же посмотрим, что мы получили.

Читать дальше →

+26

ContentAI_Team 29 мар 2017 в 10:41

«Предъявите документы» или что поможет распознать паспорт

6 мин

14K

Блог компании Content AIОбработка изображений*Разработка мобильных приложений*

Мы уже говорили о распознавании текста из видеопотока, его преимуществах по сравнению с обработкой фотографии и сценариях, где это особенно полезно.

Сегодня мы запускаем ABBYY Real-Time Recognition SDK для мобильных платформ Android и iOS. Поэтому хотим поговорить об особенностях распознавания данных на мобильном устройстве, а именно, об извлечении информации в видеопотоке на примере одного из самых сложных документов – гражданского паспорта.

Всем нам часто приходится использовать свои паспортные данные. Паспорт нужен для регистрации в мобильном банке или платёжной системе, покупки билетов, аренды машины. Сейчас многие используют для этих задач смартфон. Набирать информацию на маленькой клавиатуре мобильного устройства очень неудобно. Особенно неприятное поле для ввода – это данные о месте выдачи паспорта: обычно они занимают пару-тройку строк и содержат множество аббревиатур.

Читать дальше →

+28

1 2 ...

77

78 79 ...