Обновить
59

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Голливуду запрещают печатать фальшивые доллары

Время на прочтение2 мин
Количество просмотров75K
Для съёмки голливудских блокбастеров требуется огромное количество наличных долларов. По сюжету фильмов, их передают в чемоданах, перевозят в микроавтобусах, они должны лежать в банковских хранилищах и т.д… Но здесь кинопроизводителям ставит палки в колёса Секретная службы США, чья обязанность — борьба с фальшивомонетчеством.


Настоящая и поддельная купюра производства Independent Studio Services

Производством фальшивых купюр для голливудских студий занимается две частные фирмы. Одна из них — Independent Studio Services (ISS). Представители этой компании жалуются на исключительный идиотизм сотрудников Секретной службы США. Например, для фильма «Час пик 2» в 2001 году они изготовили купюры с надписью “In Dog We Trust” вместо оригинальной надписи “In God We Trust”, заменили главное фото и ещё 28 характеристик купюры. Это не спасло их от преследования. Агенты сказали, что купюра всё равно слишком похожа на настоящую: она такого же цвета и на ней указан номинал.
Читать дальше →

Новая технология подстраивает изображение на дисплее для людей с нарушениями зрения

Время на прочтение2 мин
Количество просмотров7.9K
display crrects instead of glasses Get Ready to Say Goodbye to Using Reading Glasses on Computers, Tablets, Smartphones

На днях в Сети появилась интересная информация о совместной разработке MIT и Университета Беркли. Объединенная команда разработчиков создала прототип дисплея, который будет автоматически подстраиваться под уровень зрения человека.

То есть в оптических очках нет нужды — изображение на дисплее будет автоматически подстраиваться таким образом, чтобы человек видел четкое изображение.

Алгоритм «понимает», каким путем определенное расстройство зрения у человека приводит к искажению обычной «картинки», и корректирует изображение соответствующим образом. В световом фильтре, размещаемом на дисплее, есть небольшие отверстия. И алгоритм, изменяя светимость каждого пикселя, позволяет подавать световые лучи на сетчатку глаза таким образом, чтобы на сетчатке глаза создавалось четкое изображение.

Читать дальше →

Эксперимент интеграции видео расширения в систему аудио-распознавания речи

Время на прочтение13 мин
Количество просмотров7.9K

Вместо введения


Продолжаю вести серию отчетов по исследовательской работе, которую проводил на протяжении нескольких месяцев, обучаясь в университете и в первые месяцы после защиты диплома. За все время работы многие элементы системы, которую разрабатывал, прошли переоценку и вектор работы в целом серьезно изменился. Тем интереснее было взглянуть на свой предыдущий опыт и опубликовать нигде не изданные ранее материалы с новыми замечаниями В данном отчете публикую материалы, почти 2-х летней давности со свежими дополнениями, которые надеюсь еще не потеряли свою актуальность.


Содержание:


1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели:


На основе накопленного опыта в предыдущих исследовательских работах, осуществить пробную интеграцию видео-расширения в систему аудио-распознавания речи, провести протоколы испытаний, сделать выводы.

Задачи:


Рассмотреть подробно как можно интегрировать видео-расширение с программы распознавания речи, исследовать сам принцип аудио-видео синхронизации, а также осуществить пробную интеграцию разрабатываемого видео расширения в систему аудио распознавания речи, оценить разрабатываемое решение.

Введение


В ходе проведения предыдущих исследовательских работ были сделаны выводы целесообразности использования аудио-систем распознавания речи на базе открытого и закрытого исходного кода под наши цели и задачи. Как было нами определено: реализация своей собственной системы распознавания речи является очень сложной, трудоемкой и ресурсозатратной задачей, которую сложно выполнить в рамках данной работы. Поэтому нами было решено интегрировать представленную технологию видео-идентификации в системы распознавания речи, которые имеют для этого специальные возможности. Так как системы распознавания речи с закрытым исходным кодом реализованы более качественно и точность распознавания речи в них выше за счет более емкого содержания словника, то поэтому интеграция нашей видео-разработки в их работу следует считать более перспективным направлением, по сравнению с аудио системами распознавания речи на базе открытого исходного кода. Однако же необходимо иметь в виду тот факт, что системы распознавания речи с закрытым исходным кодом часто имеют сложную документацию для возможности интеграции сторонних решений в их работу с серьезными ограничениями использования системы на основе лицензионного соглашения или же это направление является платным, то есть необходимо покупать специальную лицензию на использование речевых технологий, представленных лицензиантом.

Для начала в качестве эксперимента было принято решение попробовать улучшить качество распознавания речи системы распознавания речи Google Speech Recognition API за счет работы нашего разрабатываемого видео расширения. Замечу, что на время проведения испытаний у Google Speech API на базе браузера Chrome еще не было функции распознавания непрерывной речи Google, которая в то время уже встраивалась в технологию распознавания непрерывной речи Speech Input на базе ОС Android.

В качестве видео обработки за основу взято наше решение по анализу движения губ пользователя и алгоритмам фиксирования фазы движения точек в объекте интереса совместно с аудио обработкой. С тем, что в конечном итоге получилось можно ознакомиться ниже.
image
Читать дальше →

«Путевые» фотографии межпланетной станции Rosetta: с 2005 года по настоящее время

Время на прочтение2 мин
Количество просмотров35K

Это не фотография, а рисунок, фантазия художника. Фотографии — под хабракатом.

Межпланетная станция Rosetta с зондом Philae на борту находится уже примерно в 3 тысячах километров от своей цели, кометы Чурюмова-Герасименко. Напомню, именно на эту комету запланирована высадка зонда в начале августа. Как уже ранее писали на Хабре, Rosetta сделала наиболее подробные снимки кометы Чурюмова-Герасименко, и после анализа фотографий оказалось, что ядро у кометы — двойное.

Интересно еще и то, что кроме непосредственной свой задачи — изучения ядра кометы, подробного фотографирования кометы и всего прочего, станция Rosetta выполняла и побочные задания. Например, фотографировала многие интересные объекты, начиная с 2005 года (момент запуска станции), и заканчивая этим месяцем. В продолжении — галерея этих фотографий с описанием каждой.

Читать дальше →

Проект McMoon: новые технологии дают второе рождение фотографиям Луны программы Lunar Orbiter 60-х годов

Время на прочтение2 мин
Количество просмотров16K

Исходная фотография 60-х и ее современная инкарнация

В 1960-х годах агентство NASA запустило программу Lunar Orbiter, цель которой — найти пригодные для посадки площадки на Луне, которые использовались экспедициями Apollo. В частности, данными программы Lunar Orbiter воспользовались и для планирования посадки модуля Apollo-11, с двумя людьми, которые и стали первыми представителями человечества на Луне.

Каждый из аппаратов Lunar Orbiter был оснащен особой двухобъективной камерой. Пока один объектив получал изображение поверхности большой площади, второй снимал мелкие детали поверхности. В проекте использовалась 70мм пленка, которая, в теории, позволяла получить очень качественные фотографии.

Тем не менее, пленка на Землю не попала — по плану, аппараты Lunar Orbiter, по завершению своей миссии, падали на Луну. Каждый аппарат был оснащен еще и модулем проявления пленки, и передачи данных на Землю. В итоге, как и следовало ожидать, качество фотографий, получаемых на Земле, было хуже, чем в случае непосредственной работы с пленкой. Помехи, наводки, огромное расстояние — все это приводило к ухудшению качества сигнала, и, соответственно, получаемых на Земле изображений.

Читать дальше →

Некоторые методы поиска нечетких дубликатов видео

Время на прочтение11 мин
Количество просмотров20K
Существует достаточно широкий круг задач, где требуется анализ, аудио-визуальных моделей реальности. Это относится и к статическим изображениям, и к видео.

image


Ниже приведен небольшой обзор некоторых существующих методов поиска и идентификации нечетких дубликатов видео, рассмотрены их преимущества и недостатки. На основе структурного представления видео построена комбинация методов.
Обзор совсем небольшой, за подробностями, лучше обращаться к первоисточникам.
Подробности

Mozilla выпустила улучшенный JPEG-кодировщик

Время на прочтение2 мин
Количество просмотров19K
image

Mozilla выпустила новую версию кодера для JPEG-изображений mozjpeg. Новая версия уже тестируется на facebook.com, и Facebook пожертвовал Mozilla 60 000 долларов на продолжение работы над этим проектом, пишет TechCrunch.

Mozilla обещает, что версия 2.0 её кодировщика уменьшает размер JPEG-файлов в среднем на 5 %. В зависимости от изображения, процент может быть значительно выше (до 15 %) или чуть ниже. В отличие от первой версии, эффект которой был виден только на прогрессивных (progressive) JPEG, новая версия также улучшает изображения, сохранённые в базовом (baseline) формате.
Читать дальше →

Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы

Время на прочтение5 мин
Количество просмотров9.7K

Содержание:


1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели:



Увеличить точность нахождения области губ разрабатываемой системы для пользователей с различными типами лица, цвета кожи, особенностей строения губ, характеристикам окружающей среды, освещения и так далее.

Задачи:



Провести фотографирования вариаций губ пользователей в различных положениях для увеличения точности системы ручным способом. Реализовать библиотеку базы данных системы по различным типам губ в движении на основе свободной системы управления базами данных (СУБД).

Введение



В предыдущих отчетах мною были проанализированы различного рода цветовые пространства, оптимальные для выделения объектов на заданном классе изображениях. Были исследованы различные алгоритмы распознавания человеческого лица и его характеристик. Также рассмотрены разного рода математические модели, которые могут использоваться для обработки визуальных данных в режиме реального времени. На основе проведенного исследования был реализован свой собственный алгоритм нахождения области губ. Однако точность активной контурной модели интересуемого объекта в представленном решении не всегда соответствует действительности. Так как перед нами стоит задача реализовать пользовательский продукт, то для увеличения точности модульного визуального решения в данном научном исследовании перед нами стоит задача собрать библиотеку данных по различным типам губ пользователей.

1. Фотографирование вариаций губ с разными типами лиц.



Так как представленной системе по разным причинам не всегда удавалось правильно провести локализацию области губ самостоятельно, то для того чтобы технология стала более эффективной было решено исследовать разные типы губ пользователей вручную, чтобы занести исходные данные на следующем этапе в базу данных системы.

Для осуществления данной задачи тестирования было проанализировано движение губ 18 пользователей. Исходные данные были сфотографированы вручную. Рисунок 1 демонстрирует лица пользователей с местом локализации области губ во время произношения речи.

image
image
Читать дальше →

Книги не бывают плоскими…

Время на прочтение8 мин
Количество просмотров15K
С технической точки зрения, книги – это самые плохие объекты для сканирования, и если бы они были изобретены в наши дни, то представляли бы собой бесконечно длинные свитки. Если бы так случилось, необходимости в планетарных сканерах не было бы вовсе.

Сегодня мы расскажем о характеристиках планетарных сканеров, — параметрах, определяющих и оправдывающих существование в этом мире данного типа оборудования. Планетарные сканеры созданы для бесконтактной высококачественной оцифровки самых разных оригиналов: сшитых и расшитых документов, документов с толстым корешком, ценных, ветхих; а также тканей, орденов, монет и т.п. Планетарный (проекционный) способ сканирования – это сканирование сверху вниз, так сказать, с головы.

Пристальный взгляд

Изнутри сканирующая «голова» выглядит так:

image

В ней находится один или несколько светочувствительных сенсоров, оптическая система с приводом настройки фокуса, контроллер управления. В отдельных моделях присутствует модуль лазерного дальномера и привод управления «следящей» системой освещения, а также «мозги». Однако, в сканере самое главное это все-таки не мозг, а «глаза».
Читать дальше →

Реализация и апробация алгоритма распознавания мимики

Время на прочтение8 мин
Количество просмотров14K

Содержание:


1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели:



Определить наиболее оптимальный алгоритм под задачи распознавания мимики человеческого лица, рассмотреть способы его реализации.

Задачи:



Провести анализ существующих алгоритмов распознавания мимики, учитывая определённые нами доминирующие признаки классификации и математической модели. На основании полученных данных выбрать оптимальный вариант алгоритма для последующей его реализации и апробации.

Введение



В предыдущих научных отчётах была разработана математическая модель распознавания мимики, и был синтезирован алгоритм распознавания мимики. Существуют два подхода в распознавании мимики – использование деформируемой модели на области губ и выхватывание векторных признаков области губ с последующим их анализом с помощью алгоритмов на основе гауссовых смесей. Для реализации распознавания мимики необходимо выбрать оптимальный алгоритм.

1. Алгоритмы распознавания человеческого лица:

1.1 Алгоритмы, основанные на деформируемой модели.



Деформируемая модель (deformable template model) – это шаблон некоторой формы (для двумерного случая — открытая либо замкнутая кривая, для трехмерного — поверхность). Наложенный на изображение, шаблон деформируется под воздействием различных сил, внутренних (определенных для каждого конкретного шаблона) и внешних (определенных изображением, на которое наложен шаблон) — модель меняет свою форму, подстраиваясь под входные данные [1]. Исходная грубая модель губ деформируется под действием силовых полей, заданных входным изображением (Рис.1).
image
Основное преимущество над традиционными методами поиска, такими как преобразование Хафа (Hough transform [2]), в которых шаблон для поиска задается жестко, заключается в том, что деформируемые модели в процессе работы могут менять свою форму, позволяя более гибко осуществлять поиск объекта [3].

Основной недостаток деформируемых моделей [4] заключается в необходимости проведения большого числа итераций над большим количеством кадров, что значительно нагружает систему, но при вынесении основных вычислений в облако можно разгрузить систему.

Деформируемые модели можно классифицировать по типу ограничений, накладываемых на их форму, на два вида: деформируемые модели свободной формы и параметрические деформируемые модели.
Читать дальше →

Синтез оптимального алгоритма распознавания мимики

Время на прочтение8 мин
Количество просмотров6.1K

Содержание:


1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели


Определить наиболее оптимальный алгоритм для последующей его реализации и апробации в решении распознавания мимики.

Задачи


Провести анализ существующих алгоритмов видео распознавания человеческого лица и его характеристик, учитывая определенные нами доминирующие признаки классификации и математической модели. На основе полученных данных выбрать оптимальный вариант алгоритма визуального распознавания для последующего его внедрения под наши задачи реализации технологии распознавания мимики для мобильных устройств или компьютеров.

Тема


Так как перед нами стоит задача реализовать производительную систему распознавания мимики для мобильных устройств, то при выборе оптимального алгоритма под решение данной проблемы мы должны исходить из следующего:

• Низкое разрешение и высокий уровень шумов (характерно для большинства фронтальных VGA камер смартфонов и ПК);
• Невысокие производительные требования мобильных устройств и компьютеров для обсчитывания данных с частотой 25 кадров в секунду;
• Высокая скорость работы (для обработки видео в режиме онлайн).

На основе вышеперечисленных условий при выборе оптимального алгоритма под задачи распознавания мимики нам необходимо сфокусироваться на надежном алгоритме, который имеет минимальные системные требования и отличается высокой эффективностью работы. Также при осуществлении синтеза оптимального алгоритма распознавания мимики для решения поставленной задачи мы должны учитывать наш накопленный опыт, который мы приобрели в предыдущих этапах исследования.

Представим схему работы обработки и последующего анализа изображения в виде таблицы (рис.1). При этом на данном этапе исследования нам следует определить столбец, который мы для простоты перекрасили в синий цвет – то есть выбрать оптимальный алгоритм распознавания матрицы:

image

Но прежде чем приступить к выбору оптимального алгоритма под наши задачи распознавания мимики, следует объяснить механизм выхватывания вектора признаков.
Читать дальше →

Что нам стоит сеть построить

Время на прочтение8 мин
Количество просмотров60K
Когда пользуешься сложными алгоритмами для решения задач компьютерного зрения — нужно знать основы. Незнание основ приводит к глупейшим ошибкам, к тому, что система выдаёт неверифицируемый результат. Используешь OpenCV, а потом гадаешь: «может, если сделать всё специально под мою задачу ручками было бы сильно лучше?». Зачастую заказчик ставит условие «сторонних библиотек использовать нельзя», или, когда работа идёт для какого-нибудь микроконтроллера, — всё нужно прогать с нуля. Вот тут и приходит облом: в обозримые сроки реально что-то сделать, только зная как работают основы. При этом чтения статей зачастую не хватает. Прочитать статью про распознавание номеров и попробовать самому такое сделать — огромная пропасть. Поэтому лично я стараюсь периодически писать какие-нибудь простенькие программки, включающие в себя максимум новых и неизвестных для меня алгоритмов + тренирующих старые воспоминания. Рассказ — про один из таких примеров, который я написал за пару вечеров. Как мне показалось, вполне симпатичный набор алгоритмов и методов, позволяющий достичь простенького оценочного результата, которого я ни разу не видел.



Сидя вечером и страдая от того, что нужно сделать что-то полезное, но не хочется, я наткнулся на очередную статью по нейросетям и загорелся. Нужно сделать наконец-таки свою нейросеть. Идея банальная: все любят нейросети, примеров с открытым кодом масса. Мне иногда приходилось пользоваться и LeNet и сетями из OpenCV. Но меня всегда настораживало, что их характеристики и механику я знаю только по бумажкам. А между знанием «нейросети обучаются методом обратного распространения» и пониманием того, как это сделать пролегает огромная пропасть. И тогда я решился. Пришло время, чтобы 1-2 вечера посидеть и сделать всё своими руками, разобраться и понять.
Читать дальше →

Определение доминирующих признаков классификации и разработка математической модели изображений мимики

Время на прочтение6 мин
Количество просмотров9.1K

Содержание:


1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели


Определить доминирующие признаки классификации объекта локализации и разработать математическую модель под задачи анализа изображений мимики.

Задачи


Поиск и анализ способов локализации лица, определение доминирующих признаков классификации, разработка математической модели оптимальной под задачи распознавания движения мимики.

Тема


Помимо определения оптимального цветового пространства для построения выделяющихся объектов на заданном классе изображения, которая проводилась на предыдущем этапе исследования, немаловажное значение также играет определение доминирующих признаков классификации и разработка математической модели изображений мимики.

Для решения данной задачи необходимо, прежде всего, задать системе особенности модификации задачи обнаружения лица видеокамерой, а затем уже проводить локализацию движения губ.

image

Что касается первой задачи, то следует выделить две их разновидности:
• Локализация лица (Face localization);
• Отслеживание перемещения лица (Face tracking) [1].
Так как перед нами стоит задача разработки алгоритма распознавания мимики, то логично предположить, что данную систему будет использовать один пользователь, который не слишком активно будет двигать головой. Следовательно, для реализации технологии распознавания движения губ необходимо взять за основу упрощенный вариант задачи обнаружения, где на изображении присутствует одно и только одно лицо.

А это значит, что поиск лица можно будет проводить сравнительно редко (порядка 10 кадров/сек. и даже менее). Вместе с тем, движения губ говорящего во время разговора являются достаточно активными, а, следовательно, оценка их контура должна проводиться с большей интенсивностью.
Читать дальше →

Ближайшие события

Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений

Время на прочтение7 мин
Количество просмотров11K

Содержание:


1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Технологии автоматического обнаружения и распознавания лица используются в ряде систем компьютерного зрения: биометрическая идентификация, человеко-машинный интерфейс, зрения роботов, компьютерная анимация, системы идентификации и детекционирования в фото-видео камерах и так далее. Основное отличие данных приложений между собой – это целевые классы, которые являются объектами распознавания. Целевыми классами в задачи распознавания могут являться: лицо с элементами перекрытий, изображение лица человека, живое лицо человека, мимика лица, черты лица, пол, раса, возраст, личность человека и другие характеристики. Для удобства выделим целевые классы в отдельные группы, которые при попытке построения автоматической системы обнаружения лица образуют сложности:

— Сильно варьирующийся внешний вид лица у разных людей;
— Даже относительно небольшое изменение ориентации лица относительно камеры влечет за собой серьезное изменение изображения лица;
— Возможное присутствие индивидуальных особенностей (усы, борода, очки, морщины и так далее), которые существенно осложняют автоматическое распознавание;
— Изменение выражения лица может сильно сказаться на том, как лицо выглядит на изображении;
— Условия съемки (освещение, цветовой баланс камеры, искажения изображения, привносимые оптикой системы, качество изображения) в значительной степени влияют на получающееся изображение лица[1].

Задача обнаружения на изображении является первым шагом, предобработкой в процессе решения задачи «более высокого уровня» (например узнавание лица, распознавание выражения лица и так далее). Существующие алгоритмы обнаружения лица можно разбить на две категории: методы эмпирического распознавания и методы моделирования изображения лица. К первой категории относятся методы, отталкивающиеся от опыта человека в распознавании лиц и делающие попытку формализовать и алгоритмизовать этот опыт. Вторая категория нацелена на инструментарий распознавания образов, рассматривая задачу обнаружения лица как частный случай общей задачи распознавания. По набору тренировочных изображений строится модель изображения лица, и задача обнаружения сводится к проверке входного изображения на удовлетворение полученной модели.

Читать дальше →

Sol 647: новая «живая» панорама Curiosity на Марсе

Время на прочтение1 мин
Количество просмотров26K


Фотограф Андрей Бодров, о котором на Хабре писали уже не раз, в связи с его работами по составлению марсианских панорам, создал новую работу. На этот раз фотографу понадобилось месяца полтора, чтобы создать «живую» панораму Curiosity.

Эта панорама составлена из изображений Марса, полученных камерой MAHLI марсохода Curiosity на 647 марсианский день.

Для создания панорамы было использовано 134 фотографии, и общая ширина получившегося изображения составляет 30000 пикселей. Собственно, вот ссылка на эту работу.

Читать дальше →

Распознавание красоты лиц

Время на прочтение5 мин
Количество просмотров46K

«Свет мой, зеркальце! скажи
Да всю правду доложи:
Я ль на свете всех милее,
Всех румяней и белее?»


А.С. Пушкин

Волшебные вещи из сказок мало-помалу реализуются в настоящей реальности за счет использования новых технологий и научных открытий. Уже реализованы и активно применяются такие девайсы как ковер-самолет (авиация), сапоги-скороходы (автомобили), яблочко на блюдечке (нетбук с интернетом), клубочек который показывает дорогу (GPS-навигатор) и другие нужные вещи. Мы попытались реализовать упомянутую в «сказке о мертвой царевне и о семи богатырях» систему оценки красоты лица человека с помощью методов искусственного интеллекта и машинного зрения, так как считаем, что автором эпиграфа на самом деле подразумевался планшет с фронтальной камерой и специальным установленным софтом.
Подробности

Как приручить дракона с помощью технологий Intel?

Время на прочтение3 мин
Количество просмотров14K

Задолго до того, как программа NASA «Аполлон» привела первого человека на Луну, это имя было дано мифическому божеству света, Солнца и правды. Ну а сегодня «Аполлон» (Apollo) – это набор самых совершенных анимационных технологий, впервые испытанный при создании сиквела мультипликационного хита компании DreamWorks – «Как приручить дракона 2». Платформа Apollo, на разработку которой DreamWorks и Intel потратили 5 лет – это комплекс программных средств, дающий художникам-мультипликаторам полный контроль над видеорядом. Посмотрим на этот набор повнимательнее.
Читать дальше →

Генерация картинок для Android приложения из SVG

Время на прочтение5 мин
Количество просмотров12K

Введение


Здравствуйте. Не так давно я решил попробовать себя в качестве разработчика под известную каждому платформу Android. На пути разработки я столкнулся с многими проблемами и одной из них оказалась создание картинок под разные разрешения экранов. Сначала я пробовал создать картинки в PhotoShop, но это оказалось муторно, нужно сохранять при любом изменении 5 картинок в разных разрешениях, да и не гений я этой программы. И тут мне пришла в голову мысль нарисовать картинки в SVG, до этого у меня был опыт работы с данным форматом, я делал визуализацию к курсачу по системам массового обслуживания (смайлики бегали в кассу и иногда скапливались в очереди).
Читать дальше →

Распознавание текста в ABBYY FineReader (2/2)

Время на прочтение10 мин
Количество просмотров32K
Содержание
imageРаспознавание текста в ABBYY FineReader (1/2)
imageРаспознавание текста в ABBYY FineReader (2/2)

Общая теория распознавания


Мы, наконец, дошли до самой интересной темы – распознавания символа. Но для начала давайте немного разберемся с теорией, чтобы было понятнее, что именно и почему мы делаем. Общая задача автоматического распознавания или машинного обучения выглядит следующим образом.

Есть некоторый набор классов C и пространство объектов R. Есть некая внешняя «экспертная» система, с помощью которой для произвольного объекта можно определить, к какому классу он относится.

Задача автоматического распознавания – построить такую систему, которая на основе переданной ей ограниченной выборки заранее классифицированных объектов выдавала бы для любого нового переданного ей объекта соответствующий ему класс. При этом суммарная разница в классификации между «экспертной» системой и системой автоматического распознавания должна быть минимальной.

Система классов может быть дискретной или непрерывной, множество объектов может быть какой угодно структуры, экспертная система может быть произвольной, начиная с обычных человеческих экспертов, оценка точности может производиться только на некоторой выборке объектов. Но в своей основе практически любая задача автоматического распознавания (от ранжирования результатов поиска до медицинской диагностики) сводится именно к построению связки между объектами из заданного пространства и набором классов.


Читать дальше →

Сканирование фотопленки при помощи DSLR

Время на прочтение6 мин
Количество просмотров53K
Предисловие

В интернете я находил много статей на тему сканирования пленки при помощи DSLR. В них предлагались очень простые или очень громоздкие способы, но нектоторым вопросам не уделялось должного внимания. В этой статье я бы хотел рассказать о своих соображениях в деле сканирования пленки, чуть глубже погрузится в теорию, и рассмотреть самодельную установку для сканирования. На мой взгляд мне удалось сделать достаточно простую и недорогую установку, при использовании которой, можно получить максимум информации из пленки и минимизировать пост-обработку.

Зачем нужно?

Сканирование пленки нижеописанным образом позволит получить максимум информации из снимка, возможность настройки экспозиции, баланса белого, контраста и т.д. При сканировании пленки в фотосалоне, машина автоматически выбирает контраст, баланс белого, экспозицию, зачастую делая это не верно.
Читать дальше →

Вклад авторов