Обновить
87.97

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Itseez, дважды Intel Company

Время на прочтение4 мин
Охват и читатели11K
Intel, как и другие корпорации, постоянно покупает и продает бизнесы – в этом нет ничего необычного. Однако покупка российской компании для нее – событие крайне неординарное. Да и сама покупка — неординарна. Этот пост про последнее приобретение Intel – фирму Itseez, известную, прежде всего, своей ключевой ролью в развитии библиотеки OpenCV.


Читать дальше →

Синтез изображений с помощью глубоких нейросетей. Лекция в Яндексе

Время на прочтение15 мин
Охват и читатели50K
Пусть в блоге Яндекса на Хабрахабре эта неделя пройдет под знаком нейронных сетей. Как мы видим, нейросети сейчас начинают использоваться в очень многих областях, включая поиск. Кажется, что «модно» искать для них новые сферы применения, а в тех сферах, где они работают уже какое-то время, процессы не такие интересные.

Однако события в мире синтеза визуальных образов доказывают обратное. Да, компании еще несколько лет назад начали использовать нейросети для операций с изображениями — но это был не конец пути, а его начало. Недавно руководитель группы компьютерного зрения «Сколтеха» и большой друг Яндекса и ШАДа Виктор Лемпицкий рассказал о нескольких новых способах применения сетей к изображениям. Поскольку сегодняшняя лекция — про картинки, то она очень наглядная.


Под катом — расшифровка и большинство слайдов.

Как pdf (изображения) преобразовать в текстовый txt-файл

Время на прочтение4 мин
Охват и читатели47K
Вы скажете, что самый простой способ — выделить весь текст в pdf, скопировать его в буфер обмена и вставить из буфера обмена в текстовый файл. И будете правы. Но это не наш случай. Файл pdf — результат сканирования многостраничного документа. Т.е. содержимое pdf — это изображения текста.

image


Предлагаемый вариант решения реализован под Windows-8, но с небольшими корректировками, думаю, вполне может быть использован для Linux и OS X.
С задачей преобразования изображения в текст справляются Abbyy FineReader, MS Word, MS OneNote. Существуют также сайты, на которых изображение можно преобразовать в online: http://www.ocrconvert.com
Предлагаемое решение использует бесплатные утилиты. В приоритете также была работа в командной строке.
Читать дальше →

Фонд перспективных исследований: конкурс на лучшую интеллектуальную технологию дешифрирования аэрокосмической информации

Время на прочтение3 мин
Охват и читатели5.4K
Разработка интеллектуальных систем распознавания данных становится все более актуальной по мере развития интернета вещей и стремительного увеличения количества информации, которую собирают и которой обмениваются устройства: от камер систем безопасности до спутников, производящих съемку поверхности Земли. Однако анализ этой информации и последующее принятие решений пока остается за человеком: в силу естественных ограничений он не может быстро обрабатывать большие объемы данных и поэтому остается “узким местом” в процессе сбора и управления информацией.


Читать дальше →

Информационное моделирование зданий (BIM): как построить стадион (или другое здание) с первого раза и под контролем

Время на прочтение11 мин
Охват и читатели27K

Пересечение CAD-чертежей и актуальной оперативной информации.

Представьте, что у вас 20 строительных площадок, и на каждой что-то каждый день происходит. Вы, естественно, хотите знать, что, как и почему. Раньше вы обходили их ногами, потом стали пользоваться данными веб-камер, а теперь стандартом в индустрии становится информационное моделирование зданий/сооружений, или BIM (Building Information Modelling). Это проектирование, строительство и эксплуатация в одной IDE. Собственно, такой подход уже стал государственным в Великобритании, Сингапуре, Норвегии и Китае. У нас же BIM пока применяется для того, чтобы на этапе предпроекта или проекта визуализировать то, что собираются построить. А ещё сейчас делают первые шаги, чтобы ловить проблемы в момент появления, а не когда о них доложат.

Естественно, было бы странно, если бы всё то, что касается финансов и начинается со слов «очень наглядный», не встречалось бы в штыки.

Ещё пример правильного решения — прокладка новой трассы. Нужно решить задачу расчёта оптимальной траектории, обхода преград, оптимизации выкупаемых участков по кадастру, взаимосвязи с существующей сетью дорог и инфраструктурой. Получается довольно объёмная система нелинейных уравнений, и её решение — только начало BIM.

Или, например, вы строите стадион.
Читать дальше →

Просто, мощно, навсегда. Элекард CodecWorks 990 — программный лайв транскодер для AVC и HEVC

Время на прочтение8 мин
Охват и читатели14K


В прошлой статье мы рассмотрели, как работает аппаратное ускорение кодирования и декодирования видео Quick Sync Video (QSV) в процессорах 6-го поколения Skylake. Маленький участок SoC специально выделили для размещения специализированных интегральных схем, которые занимаются только обработкой видео. Воспроизведение видео с аппаратной поддержкой стало гораздо меньше отнимать ресурсов у других задач в ОС, меньше нагревать CPU и потреблять меньше электроэнергии. Благодаря QSV, например, ноутбук MacBook Air воспроизводит более 10 часов видео на одном заряде аккумулятора.
Читать дальше →

Google Cloud Vision API‎. Будущее Computer Vision as a service настало?

Время на прочтение8 мин
Охват и читатели45K
Год назад Google сваял платформу Cloud Vision API‎. Идея платформы — предоставить технологии Computer Vision, в которых Google является безусловным лидером, как сервис. Пару лет назад под каждую задачу существовала своя технология. Нельзя было взять что-то общее и добиться, чтобы алгоритм решал всё. Но Google замахнулся. Вот, прошёл уже год. А технология всё так же не на слуху. На хабре одна статья. Да и та ещё не про Cloud Vision api, а про Face api, которое было предшественником. Англоязычный интернет тоже не пестрит статьями. Разве что от самого Google. Это провал?



Мне было интересно посмотреть что это такое ещё весной. Но сил полноценно посидеть не хватало. Изредка что-то отдельное тестировал. Периодически приходили заказчики и спрашивали, почему нельзя применить Cloud Api. Приходилось отвечать. Или наоборот, отсылать с порога в этом направлении. И внезапно понял, что материала на статью уже достаточно. Поехали.
Читать дальше →

Почему супер-мега-про машинного обучения за 15 минут всё же не стать

Время на прочтение6 мин
Охват и читатели29K
Вчера я опубликовал статью про машинное обучение и NVIDIA DIGITS. Как и обещал, сегодняшняя статья — почему всё не так уж и хорошо + пример выделения объектов в кадре на DIGITS.

NVIDIA подняла волну пиара по поводу разработанной и имплиментированной в DIGITS сетки DetectNet. Сетка позиционируется как решение для поиска одинаковых/похожих объектов на изображении.


Читать дальше →

Устранение перспективных искажений и разгибание кривых строк на фотографиях книжных разворотов

Время на прочтение6 мин
Охват и читатели20K
В прошлый раз в статье «Поиск линии корешка на фотографиях книжных разворотов» мы обещали рассказать о том, что случается с фотографией книжного разворота после этого, а именно — про устранение перспективных искажений и разгибание кривых строк текста. Без этого получить качественные результаты OCR практически невозможно.

Итак, считаем, что мы уже нашли на фотографии линию корешка, воспользуемся этим знанием, чтобы определить ваниш-точки для страниц разворота (vanishing point). Ваниш-точки – это точки схождения параллельных прямых в перспективной проекции книги на плоскость изображения. Они обе должны располагаться на продолжении этой линии, но для каждой из страниц положение точки может быть свое. Схематически это показано на следующей иллюстрации (на самом деле, это лог для отладки). Линия корешка выделена красным, линии, пересекающиеся в ваниш-точках, – зеленым.


Читать дальше →

Новые возможности Intel RealSense SDK 2016 R2

Время на прочтение5 мин
Охват и читатели4.8K
Второй выпуск Intel RealSense SDK (для Windows) в 2016 году (2016R2) — версия 10.0.26.0396. В новой версии значительно улучшена работа модулей сегментации фона (BGS), отслеживания рук в режиме указателя и модуля 3D Scan для камеры SR300. Первые два модуля доступны уже в виде «золотой» версии, модуль 3DScan для SR300 перешел на уровень бета-версии. Для камеры R200 некоторые компоненты модуля Enhanced Photography (EP) перешли на «золотой» уровень, в том числе EP Meaurement. При этом модули EP Realtime Depth Enhancement и EP Tracking пока остались на уровне предварительного ознакомления. Остальные функции R200 не изменились.


Читать дальше →

Как стать супер-мега-про машинного обучения за 15 минут

Время на прочтение3 мин
Охват и читатели34K
image

Недавно на Хабре проскакивал пост vfdev-5 о DIGITS. Давайте поподробнее разберёмся что это такое и с чём его едят. Если в двух словах. Это среда, которая позволяет решить 30-50% задачек машинного обучения на коленке в течении 5 минут. Без умения программировать. Ну, при наличии базы, конечно. И более-менее адекватной карточки от NVIDIA.
Читать дальше →

Колыбель для AI

Время на прочтение8 мин
Охват и читатели18K


Есть одна тема в современном Computer Vision, которая часто остаётся за кадром. В ней нет сложной математики и глубокой логики. Но то что её никак не освещают — вгоняет в ступор многих новичков. А тема не проста: имеет множество граблей, про которые не узнаешь, пока не наступишь.

Тема — называется так: подготовка базы изображений для дальнейшего обучения.
В статье:

  1. Как можно отличить хорошую базу
  2. Примеры хороших баз
  3. Примеры программ, которыми удобно размечать базы

Читать дальше →

Обзор топологий глубоких сверточных нейронных сетей

Время на прочтение18 мин
Охват и читатели113K
Это будет длиннопост. Я давно хотел написать этот обзор, но sim0nsays меня опередил, и я решил выждать момент, например как появятся результаты ImageNet’а. Вот момент настал, но имаджнет не преподнес никаких сюрпризов, кроме того, что на первом месте по классификации находятся китайские эфэсбэшники. Их модель в лучших традициях кэгла является ансамблем нескольких моделей (Inception, ResNet, Inception ResNet) и обгоняет победителей прошлого всего на полпроцента (кстати, публикации еще нет, и есть мизерный шанс, что там реально что-то новое). Кстати, как видите из результатов имаджнета, что-то пошло не так с добавлением слоев, о чем свидетельствует рост в ширину архитектуры итоговой модели. Может, из нейросетей уже выжали все что можно? Или NVidia слишком задрала цены на GPU и тем самым тормозит развитие ИИ? Зима близко? В общем, на эти вопросы я тут не отвечу. Зато под катом вас ждет много картинок, слоев и танцев с бубном. Подразумевается, что вы уже знакомы с алгоритмом обратного распространения ошибки и понимаете, как работают основные строительные блоки сверточных нейронных сетей: свертки и пулинг.

Читать дальше →

Ближайшие события

Как мы помогали проводить медицинскую перепись в Республике Бангладеш

Время на прочтение7 мин
Охват и читатели7.2K


Бангладеш – государство в юго-восточной Азии, занимает восьмое место в мире по численности населения (Россия, по данным Википедии, сейчас на 9 месте), граничит с Индией и Бирмой. Подавляющее большинство бангладешцев – сельские жители (135 миллионов из 160), и условия их жизни, мягко говоря, далеки от идеальных. Не во всех домохозяйствах есть доступ к питьевой воде, санитарные условия оставляют желать лучшего.

Сегодняшний наш материал о том, как при помощи нашего ABBYY FlexiCapture министерство здравоохранения Бангладеш обработало результаты медицинской переписи — такая перепись нужна, чтобы принимать правильные стратегические решения в области здравоохранения.

Читать дальше →

Новая программа способна восстанавливать информацию, скрытую с помощью пикселизации

Время на прочтение2 мин
Охват и читатели7.2K


Многие предприятия обмениваются документами, которые пикселизированы, чтобы защитить личную информацию: это могут быть номера банковских счетов, фотографии или любая другая персональная информация. Хотя используемая для этого пикселизация должна быть простым и эффективным способом сокрытия конфиденциальной информации, но теперь компьютеры стали достаточно «умны», чтобы «прочитать» такие искаженные образы, даже если Ваш глаз не может этого сделать. Пикселизированные документы более не являются безопасными!
Читать дальше →

EBU R128/BS.1770-3: Пакетная нормализация громкости аудио/видео файлов

Время на прочтение2 мин
Охват и читатели18K
Всем привет!
Решил поделиться опытом автоматизации контроля громкости вещания своего СМИ. Думаю, у всех профильных технарей давно болит голова, точно продолжает болеть. Введенная Минкомсвязи рекомендация в области нормирования громкости звуковых сигналов вызвала волны возмущения.
Не было предоставлено ни средств контроля, ни средств производства. Крутитесь как хотите.
Впрочем, уже давно, задолго до того знакового события существуют различные плагины к монтажным программам.
Но как быть если уже накоплена огроменная медиабаза?
image
Читать дальше →

[SC]Работаем со сканером

Время на прочтение11 мин
Охват и читатели14K

Последние несколько лет мы с коллегами пытаемся сделать так, чтобы в офисе стало меньше бумаги. С цифровыми документами сотрудники работают быстрее и качественнее — да и пыли становится в разы меньше.

Чтобы полностью перейти на цифровые документы сначала надо отсканировать бумажные. Для разработки десктопных приложений сканировщиков мы используем .NET Framework. Из коробки он не предоставляет средств для работы со сканерами. Поскольку .NET дружит с COM, можно использовать компонент WIA (Windows Imaging Architecture).
Читать дальше →

Где распознают лица

Время на прочтение6 мин
Охват и читатели5.1K
Компания VisionLabs, которая специализируется на технологии распознавания лиц, меньше чем за год стала одним из победителей конкурса Web Ready (с 2016 года — GoTech), вошла в список 12 финалистов программы Challenge UP!, организованной Intel, Cisco и Deutsche Telekom AG, а также привлекла 350 млн рублей инвестиций венчурного фонда Sistema Venture Capital.

Александр Ханин, генеральный директор компании, рассказывает о том, как технологии распознавания лиц внедряются в коммерческом секторе, какое их ждет будущее и как к ним относятся те, кто попадает в объектив, а также выделяет решения, которые могут составить им конкуренцию.
Читать дальше →

О новых успехах противостояния (СР УВЧ!*)

Время на прочтение3 мин
Охват и читатели17K
Пару дней назад появилась статья, которую почти никто не освещал. На мой взгляд, она замечательная, поэтому про неё расскажу в меру своих способностей. Статья о том, чего пока не было: машину научили играть в шутер, используя только картинку с экрана. Вместо тысячи слов:



Не идеально, но по мне — очень классно. 3D шутер, который играется в реальном времени — это впервые.
А теперь чуть-чуть теории

Сжатие мобильной графики в формат ETC1 и открытая утилита

Время на прочтение9 мин
Охват и читатели18K
При развитии free-to-play мобильной игры вместе с новыми фичами регулярно добавляется и новая графика. Часть ее включается в дистрибутив, часть скачивается в ходе игры. Для возможности запуска приложения на устройствах с небольшим размером оперативной памяти разработчики применяют аппаратно сжатые текстуры.



Формат ETC1 обязателен к поддержке на всех Android-устройствах с OpenGL ES 2.0 и является хорошей отправной точкой оптимизации потребляемой оперативной памяти. По сравнению с форматами PNG, JPEG, WebP загрузка текстур ETC1 осуществляется без интенсивных расчетов обычным копированием памяти. Также улучшается производительность игры по причине меньших размеров данных текстур пересылаемых из медленной памяти в быструю.
Читать дальше →

Вклад авторов