Все потоки
Поиск
Написать публикацию
Обновить
46.7

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Deep Learning: Cочетание глубокой сверточной нейронной сети с рекуррентной нейронной сетью

Время на прочтение6 мин
Количество просмотров23K
Представляем вам завершающую статью из цикла по Deep Learning, в которой отражены итоги работы по обучению ГСНС для изображений из определенных областей на примере распознавания и тегирования элементов одежды. Предыдущие части вы найдете под катом.


Читать дальше →

«Великий уравнитель» или способ решить проблему выравнивания по высоте

Время на прочтение4 мин
Количество просмотров18K
Мы много занимаемся электронной коммерцией и часто встречаем задачу по выравниванию элементов. На первый взгляд все просто, в коде пишется несколько строк и все ок. Но на самом деле элементы бывают очень разные, правил применения тоже много, а еще есть адаптив.

Эта статья пригодится тем, кто часто встречается с проблемой выравнивания элементов по высоте в разных ситуациях.

Рис. 1. Порядок отображения группы товаров.

Читать дальше →

Квантизация изображений

Время на прочтение5 мин
Количество просмотров24K
Квантизация — уменьшение цветов изображения (wiki). Конечно, сейчас мало кому это необходимо, но задача сама по себе интересная.


Квантизированная Лена привлекает внимание

Например, старый добрый формат GIF использует палитру, максимум на 256 цветов. Если вы захотите сохранить серию своих селфи как gif-анимацию (кому бы это надо было), то первое, что вам, а точнее программе, которую вы будете для этого использовать, надо будет сделать – создать палитру. Можно использовать статическую палитру, например web-safe colors, алгоритм квантизации получиться очень простым и быстрым, но результат будет «не очень». Можно создать оптимальную палитру на основе цветов изображения, что даст результат наиболее визуально похожий на оригинал.

Алгоритмов создания оптимальной палитры несколько, каждый имеет свои плюсы и минусы. Я не стану утруждать читателя нудной теорией и формулами, во первых мне лень, во вторых большинству это не интересно – статью просто пролистают, рассматривая картинки.

Далее вас ждёт скучное и непонятное повествование о методе медианного сечения, алгоритму рассеивания ошибок (шума квантизации) по Флойду-Стейнбергу (и не только), особенностях цветового восприятия человеческого глаза, а так же немного говнокода.
Читать дальше →

Deep Learning: Transfer learning и тонкая настройка глубоких сверточных нейронных сетей

Время на прочтение7 мин
Количество просмотров27K
В предыдущей статье из цикла «Deep Learning» вы узнали о сравнении фреймворков для символьного глубокого обучения. В этом материале речь пойдет о глубокой настройке сверточных нейронных сетей для повышения средней точности и эффективности классификации медицинских изображений.


Читать дальше →

Как технологии ABBYY помогают улучшить работу систем обнаружения утечек данных

Время на прочтение10 мин
Количество просмотров9.9K
Несмотря на прогнозы о скором наступлении светлого безбумажного будущего, объём бумажных документов всё ещё огромен. Часть из них сканируется и продолжает свою «жизнь» уже в электронном варианте – но только в виде изображений. В среднем в организациях объем сканированных копий составляет 30% от всех документов, которые хранятся в электронном виде. В госсекторе он достигает 41,5%, в ритейле – 17%, в сфере услуг – 23%, в банках и телеком-сфере приближается к 45%. Когда сканы документов лежат себе в нужной папке или делают работу, для которой они предназначены, – это хорошо. Плохо, когда кто-то пытается использовать данные из этих сканов в мошеннических схемах или как-то иначе злоупотреблять ими. Чтобы конфиденциальная информация не «утекла», в информационные системы компаний устанавливают DLP – системы предотвращения утечек.

Сегодня мы расскажем, как в одну из таких программ – Контур информационной безопасности SearchInform – был интегрирован SDK-продукт ABBYY FineReader Engine и что из этого получилось.
Читать дальше →

Как собрать RidgeRun SDK

Время на прочтение6 мин
Количество просмотров4.4K
image

Само по себе RidgeRun SDK не очень распространенная SDK, однако, если Вам придётся занимать работой с видео для встраиваемых систем, то Вам наверняка будет интересно оценить эту SDK (Официальный сайт RidgeRun SDK).
Читать дальше →

Itseez, дважды Intel Company

Время на прочтение4 мин
Количество просмотров11K
Intel, как и другие корпорации, постоянно покупает и продает бизнесы – в этом нет ничего необычного. Однако покупка российской компании для нее – событие крайне неординарное. Да и сама покупка — неординарна. Этот пост про последнее приобретение Intel – фирму Itseez, известную, прежде всего, своей ключевой ролью в развитии библиотеки OpenCV.


Читать дальше →

Синтез изображений с помощью глубоких нейросетей. Лекция в Яндексе

Время на прочтение15 мин
Количество просмотров49K
Пусть в блоге Яндекса на Хабрахабре эта неделя пройдет под знаком нейронных сетей. Как мы видим, нейросети сейчас начинают использоваться в очень многих областях, включая поиск. Кажется, что «модно» искать для них новые сферы применения, а в тех сферах, где они работают уже какое-то время, процессы не такие интересные.

Однако события в мире синтеза визуальных образов доказывают обратное. Да, компании еще несколько лет назад начали использовать нейросети для операций с изображениями — но это был не конец пути, а его начало. Недавно руководитель группы компьютерного зрения «Сколтеха» и большой друг Яндекса и ШАДа Виктор Лемпицкий рассказал о нескольких новых способах применения сетей к изображениям. Поскольку сегодняшняя лекция — про картинки, то она очень наглядная.


Под катом — расшифровка и большинство слайдов.

Как pdf (изображения) преобразовать в текстовый txt-файл

Время на прочтение4 мин
Количество просмотров46K
Вы скажете, что самый простой способ — выделить весь текст в pdf, скопировать его в буфер обмена и вставить из буфера обмена в текстовый файл. И будете правы. Но это не наш случай. Файл pdf — результат сканирования многостраничного документа. Т.е. содержимое pdf — это изображения текста.

image


Предлагаемый вариант решения реализован под Windows-8, но с небольшими корректировками, думаю, вполне может быть использован для Linux и OS X.
С задачей преобразования изображения в текст справляются Abbyy FineReader, MS Word, MS OneNote. Существуют также сайты, на которых изображение можно преобразовать в online: http://www.ocrconvert.com
Предлагаемое решение использует бесплатные утилиты. В приоритете также была работа в командной строке.
Читать дальше →

Фонд перспективных исследований: конкурс на лучшую интеллектуальную технологию дешифрирования аэрокосмической информации

Время на прочтение3 мин
Количество просмотров5.3K
Разработка интеллектуальных систем распознавания данных становится все более актуальной по мере развития интернета вещей и стремительного увеличения количества информации, которую собирают и которой обмениваются устройства: от камер систем безопасности до спутников, производящих съемку поверхности Земли. Однако анализ этой информации и последующее принятие решений пока остается за человеком: в силу естественных ограничений он не может быстро обрабатывать большие объемы данных и поэтому остается “узким местом” в процессе сбора и управления информацией.


Читать дальше →

Информационное моделирование зданий (BIM): как построить стадион (или другое здание) с первого раза и под контролем

Время на прочтение11 мин
Количество просмотров27K

Пересечение CAD-чертежей и актуальной оперативной информации.

Представьте, что у вас 20 строительных площадок, и на каждой что-то каждый день происходит. Вы, естественно, хотите знать, что, как и почему. Раньше вы обходили их ногами, потом стали пользоваться данными веб-камер, а теперь стандартом в индустрии становится информационное моделирование зданий/сооружений, или BIM (Building Information Modelling). Это проектирование, строительство и эксплуатация в одной IDE. Собственно, такой подход уже стал государственным в Великобритании, Сингапуре, Норвегии и Китае. У нас же BIM пока применяется для того, чтобы на этапе предпроекта или проекта визуализировать то, что собираются построить. А ещё сейчас делают первые шаги, чтобы ловить проблемы в момент появления, а не когда о них доложат.

Естественно, было бы странно, если бы всё то, что касается финансов и начинается со слов «очень наглядный», не встречалось бы в штыки.

Ещё пример правильного решения — прокладка новой трассы. Нужно решить задачу расчёта оптимальной траектории, обхода преград, оптимизации выкупаемых участков по кадастру, взаимосвязи с существующей сетью дорог и инфраструктурой. Получается довольно объёмная система нелинейных уравнений, и её решение — только начало BIM.

Или, например, вы строите стадион.
Читать дальше →

Просто, мощно, навсегда. Элекард CodecWorks 990 — программный лайв транскодер для AVC и HEVC

Время на прочтение8 мин
Количество просмотров14K


В прошлой статье мы рассмотрели, как работает аппаратное ускорение кодирования и декодирования видео Quick Sync Video (QSV) в процессорах 6-го поколения Skylake. Маленький участок SoC специально выделили для размещения специализированных интегральных схем, которые занимаются только обработкой видео. Воспроизведение видео с аппаратной поддержкой стало гораздо меньше отнимать ресурсов у других задач в ОС, меньше нагревать CPU и потреблять меньше электроэнергии. Благодаря QSV, например, ноутбук MacBook Air воспроизводит более 10 часов видео на одном заряде аккумулятора.
Читать дальше →

Google Cloud Vision API‎. Будущее Computer Vision as a service настало?

Время на прочтение8 мин
Количество просмотров42K
Год назад Google сваял платформу Cloud Vision API‎. Идея платформы — предоставить технологии Computer Vision, в которых Google является безусловным лидером, как сервис. Пару лет назад под каждую задачу существовала своя технология. Нельзя было взять что-то общее и добиться, чтобы алгоритм решал всё. Но Google замахнулся. Вот, прошёл уже год. А технология всё так же не на слуху. На хабре одна статья. Да и та ещё не про Cloud Vision api, а про Face api, которое было предшественником. Англоязычный интернет тоже не пестрит статьями. Разве что от самого Google. Это провал?



Мне было интересно посмотреть что это такое ещё весной. Но сил полноценно посидеть не хватало. Изредка что-то отдельное тестировал. Периодически приходили заказчики и спрашивали, почему нельзя применить Cloud Api. Приходилось отвечать. Или наоборот, отсылать с порога в этом направлении. И внезапно понял, что материала на статью уже достаточно. Поехали.
Читать дальше →

Ближайшие события

Почему супер-мега-про машинного обучения за 15 минут всё же не стать

Время на прочтение6 мин
Количество просмотров29K
Вчера я опубликовал статью про машинное обучение и NVIDIA DIGITS. Как и обещал, сегодняшняя статья — почему всё не так уж и хорошо + пример выделения объектов в кадре на DIGITS.

NVIDIA подняла волну пиара по поводу разработанной и имплиментированной в DIGITS сетки DetectNet. Сетка позиционируется как решение для поиска одинаковых/похожих объектов на изображении.


Читать дальше →

Устранение перспективных искажений и разгибание кривых строк на фотографиях книжных разворотов

Время на прочтение6 мин
Количество просмотров19K
В прошлый раз в статье «Поиск линии корешка на фотографиях книжных разворотов» мы обещали рассказать о том, что случается с фотографией книжного разворота после этого, а именно — про устранение перспективных искажений и разгибание кривых строк текста. Без этого получить качественные результаты OCR практически невозможно.

Итак, считаем, что мы уже нашли на фотографии линию корешка, воспользуемся этим знанием, чтобы определить ваниш-точки для страниц разворота (vanishing point). Ваниш-точки – это точки схождения параллельных прямых в перспективной проекции книги на плоскость изображения. Они обе должны располагаться на продолжении этой линии, но для каждой из страниц положение точки может быть свое. Схематически это показано на следующей иллюстрации (на самом деле, это лог для отладки). Линия корешка выделена красным, линии, пересекающиеся в ваниш-точках, – зеленым.


Читать дальше →

Новые возможности Intel RealSense SDK 2016 R2

Время на прочтение5 мин
Количество просмотров4.7K
Второй выпуск Intel RealSense SDK (для Windows) в 2016 году (2016R2) — версия 10.0.26.0396. В новой версии значительно улучшена работа модулей сегментации фона (BGS), отслеживания рук в режиме указателя и модуля 3D Scan для камеры SR300. Первые два модуля доступны уже в виде «золотой» версии, модуль 3DScan для SR300 перешел на уровень бета-версии. Для камеры R200 некоторые компоненты модуля Enhanced Photography (EP) перешли на «золотой» уровень, в том числе EP Meaurement. При этом модули EP Realtime Depth Enhancement и EP Tracking пока остались на уровне предварительного ознакомления. Остальные функции R200 не изменились.


Читать дальше →

Как стать супер-мега-про машинного обучения за 15 минут

Время на прочтение3 мин
Количество просмотров34K
image

Недавно на Хабре проскакивал пост vfdev-5 о DIGITS. Давайте поподробнее разберёмся что это такое и с чём его едят. Если в двух словах. Это среда, которая позволяет решить 30-50% задачек машинного обучения на коленке в течении 5 минут. Без умения программировать. Ну, при наличии базы, конечно. И более-менее адекватной карточки от NVIDIA.
Читать дальше →

Колыбель для AI

Время на прочтение8 мин
Количество просмотров17K


Есть одна тема в современном Computer Vision, которая часто остаётся за кадром. В ней нет сложной математики и глубокой логики. Но то что её никак не освещают — вгоняет в ступор многих новичков. А тема не проста: имеет множество граблей, про которые не узнаешь, пока не наступишь.

Тема — называется так: подготовка базы изображений для дальнейшего обучения.
В статье:

  1. Как можно отличить хорошую базу
  2. Примеры хороших баз
  3. Примеры программ, которыми удобно размечать базы

Читать дальше →

Обзор топологий глубоких сверточных нейронных сетей

Время на прочтение18 мин
Количество просмотров111K
Это будет длиннопост. Я давно хотел написать этот обзор, но sim0nsays меня опередил, и я решил выждать момент, например как появятся результаты ImageNet’а. Вот момент настал, но имаджнет не преподнес никаких сюрпризов, кроме того, что на первом месте по классификации находятся китайские эфэсбэшники. Их модель в лучших традициях кэгла является ансамблем нескольких моделей (Inception, ResNet, Inception ResNet) и обгоняет победителей прошлого всего на полпроцента (кстати, публикации еще нет, и есть мизерный шанс, что там реально что-то новое). Кстати, как видите из результатов имаджнета, что-то пошло не так с добавлением слоев, о чем свидетельствует рост в ширину архитектуры итоговой модели. Может, из нейросетей уже выжали все что можно? Или NVidia слишком задрала цены на GPU и тем самым тормозит развитие ИИ? Зима близко? В общем, на эти вопросы я тут не отвечу. Зато под катом вас ждет много картинок, слоев и танцев с бубном. Подразумевается, что вы уже знакомы с алгоритмом обратного распространения ошибки и понимаете, как работают основные строительные блоки сверточных нейронных сетей: свертки и пулинг.

Читать дальше →

Как мы помогали проводить медицинскую перепись в Республике Бангладеш

Время на прочтение7 мин
Количество просмотров7K


Бангладеш – государство в юго-восточной Азии, занимает восьмое место в мире по численности населения (Россия, по данным Википедии, сейчас на 9 месте), граничит с Индией и Бирмой. Подавляющее большинство бангладешцев – сельские жители (135 миллионов из 160), и условия их жизни, мягко говоря, далеки от идеальных. Не во всех домохозяйствах есть доступ к питьевой воде, санитарные условия оставляют желать лучшего.

Сегодняшний наш материал о том, как при помощи нашего ABBYY FlexiCapture министерство здравоохранения Бангладеш обработало результаты медицинской переписи — такая перепись нужна, чтобы принимать правильные стратегические решения в области здравоохранения.

Читать дальше →

Вклад авторов