Все потоки

Обработка изображений *

Работаем с фото и видео

СтатьиПостыНовостиАвторыКомпании

@saul 9 ноя 2016 в 11:52

Itseez, дважды Intel Company

4 мин

11K

Блог компании IntelОбработка изображений * Программирование *

Intel, как и другие корпорации, постоянно покупает и продает бизнесы – в этом нет ничего необычного. Однако покупка российской компании для нее – событие крайне неординарное. Да и сама покупка — неординарна. Этот пост про последнее приобретение Intel – фирму Itseez, известную, прежде всего, своей ключевой ролью в развитии библиотеки OpenCV.

Читать дальше →

+13

@Leono 6 ноя 2016 в 10:47

Синтез изображений с помощью глубоких нейросетей. Лекция в Яндексе

15 мин

50K

Блог компании ЯндексАлгоритмы * Занимательные задачкиОбработка изображений *

Пусть в блоге Яндекса на Хабрахабре эта неделя пройдет под знаком нейронных сетей. Как мы видим, нейросети сейчас начинают использоваться в очень многих областях, включая поиск. Кажется, что «модно» искать для них новые сферы применения, а в тех сферах, где они работают уже какое-то время, процессы не такие интересные.

Однако события в мире синтеза визуальных образов доказывают обратное. Да, компании еще несколько лет назад начали использовать нейросети для операций с изображениями — но это был не конец пути, а его начало. Недавно руководитель группы компьютерного зрения «Сколтеха» и большой друг Яндекса и ШАДа Виктор Лемпицкий рассказал о нескольких новых способах применения сетей к изображениям. Поскольку сегодняшняя лекция — про картинки, то она очень наглядная.

Под катом — расшифровка и большинство слайдов.

+78

@Yanovets 2 ноя 2016 в 12:40

Как pdf (изображения) преобразовать в текстовый txt-файл

4 мин

47K

PDFPython * Обработка изображений *

Из песочницы

Вы скажете, что самый простой способ — выделить весь текст в pdf, скопировать его в буфер обмена и вставить из буфера обмена в текстовый файл. И будете правы. Но это не наш случай. Файл pdf — результат сканирования многостраничного документа. Т.е. содержимое pdf — это изображения текста.

Предлагаемый вариант решения реализован под Windows-8, но с небольшими корректировками, думаю, вполне может быть использован для Linux и OS X.
С задачей преобразования изображения в текст справляются Abbyy FineReader, MS Word, MS OneNote. Существуют также сайты, на которых изображение можно преобразовать в online: http://www.ocrconvert.com
Предлагаемое решение использует бесплатные утилиты. В приоритете также была работа в командной строке.

Читать дальше →

+20

@FPI_Russia 28 окт 2016 в 10:27

Фонд перспективных исследований: конкурс на лучшую интеллектуальную технологию дешифрирования аэрокосмической информации

3 мин

5.4K

Блог компании Фонд перспективных исследованийГеоинформационные сервисы * Машинное обучение * Обработка изображений * Программирование *

Разработка интеллектуальных систем распознавания данных становится все более актуальной по мере развития интернета вещей и стремительного увеличения количества информации, которую собирают и которой обмениваются устройства: от камер систем безопасности до спутников, производящих съемку поверхности Земли. Однако анализ этой информации и последующее принятие решений пока остается за человеком: в силу естественных ограничений он не может быстро обрабатывать большие объемы данных и поэтому остается “узким местом” в процессе сбора и управления информацией.

Читать дальше →

+13

@YuChaly 27 окт 2016 в 07:15

Информационное моделирование зданий (BIM): как построить стадион (или другое здание) с первого раза и под контролем

11 мин

27K

Блог компании КРОКАнализ и проектирование систем * Визуализация данных * Обработка изображений *

Пересечение CAD-чертежей и актуальной оперативной информации.

Представьте, что у вас 20 строительных площадок, и на каждой что-то каждый день происходит. Вы, естественно, хотите знать, что, как и почему. Раньше вы обходили их ногами, потом стали пользоваться данными веб-камер, а теперь стандартом в индустрии становится информационное моделирование зданий/сооружений, или BIM (Building Information Modelling). Это проектирование, строительство и эксплуатация в одной IDE. Собственно, такой подход уже стал государственным в Великобритании, Сингапуре, Норвегии и Китае. У нас же BIM пока применяется для того, чтобы на этапе предпроекта или проекта визуализировать то, что собираются построить. А ещё сейчас делают первые шаги, чтобы ловить проблемы в момент появления, а не когда о них доложат.

Естественно, было бы странно, если бы всё то, что касается финансов и начинается со слов «очень наглядный», не встречалось бы в штыки.

Ещё пример правильного решения — прокладка новой трассы. Нужно решить задачу расчёта оптимальной траектории, обхода преград, оптимизации выкупаемых участков по кадастру, взаимосвязи с существующей сетью дорог и инфраструктурой. Получается довольно объёмная система нелинейных уравнений, и её решение — только начало BIM.

Или, например, вы строите стадион.

Читать дальше →

+14

@CooperMaster 25 окт 2016 в 11:28

Просто, мощно, навсегда. Элекард CodecWorks 990 — программный лайв транскодер для AVC и HEVC

8 мин

14K

Блог компании IntelАлгоритмы * Высоконагруженные системы * Обработка изображений *

В прошлой статье мы рассмотрели, как работает аппаратное ускорение кодирования и декодирования видео Quick Sync Video (QSV) в процессорах 6-го поколения Skylake. Маленький участок SoC специально выделили для размещения специализированных интегральных схем, которые занимаются только обработкой видео. Воспроизведение видео с аппаратной поддержкой стало гораздо меньше отнимать ресурсов у других задач в ОС, меньше нагревать CPU и потреблять меньше электроэнергии. Благодаря QSV, например, ноутбук MacBook Air воспроизводит более 10 часов видео на одном заряде аккумулятора.

Читать дальше →

+22

@ZlodeiBaal 19 окт 2016 в 21:23

Google Cloud Vision API‎. Будущее Computer Vision as a service настало?

8 мин

45K

Google API * Алгоритмы * Анализ и проектирование систем * Машинное обучение * Обработка изображений *

Туториал

Год назад Google сваял платформу Cloud Vision API‎. Идея платформы — предоставить технологии Computer Vision, в которых Google является безусловным лидером, как сервис. Пару лет назад под каждую задачу существовала своя технология. Нельзя было взять что-то общее и добиться, чтобы алгоритм решал всё. Но Google замахнулся. Вот, прошёл уже год. А технология всё так же не на слуху. На хабре одна статья. Да и та ещё не про Cloud Vision api, а про Face api, которое было предшественником. Англоязычный интернет тоже не пестрит статьями. Разве что от самого Google. Это провал?

Мне было интересно посмотреть что это такое ещё весной. Но сил полноценно посидеть не хватало. Изредка что-то отдельное тестировал. Периодически приходили заказчики и спрашивали, почему нельзя применить Cloud Api. Приходилось отвечать. Или наоборот, отсылать с порога в этом направлении. И внезапно понял, что материала на статью уже достаточно. Поехали.

Читать дальше →

+35

@ZlodeiBaal 18 окт 2016 в 16:08

Почему супер-мега-про машинного обучения за 15 минут всё же не стать

6 мин

29K

Блог компании RecognitorОбработка изображений * Машинное обучение * Алгоритмы *

Туториал

Вчера я опубликовал статью про машинное обучение и NVIDIA DIGITS. Как и обещал, сегодняшняя статья — почему всё не так уж и хорошо + пример выделения объектов в кадре на DIGITS.

NVIDIA подняла волну пиара по поводу разработанной и имплиментированной в DIGITS сетки DetectNet. Сетка позиционируется как решение для поиска одинаковых/похожих объектов на изображении.

Читать дальше →

+24

@logicview 18 окт 2016 в 08:54

Устранение перспективных искажений и разгибание кривых строк на фотографиях книжных разворотов

6 мин

20K

Блог компании Content AIАлгоритмы * Обработка изображений *

В прошлый раз в статье «Поиск линии корешка на фотографиях книжных разворотов» мы обещали рассказать о том, что случается с фотографией книжного разворота после этого, а именно — про устранение перспективных искажений и разгибание кривых строк текста. Без этого получить качественные результаты OCR практически невозможно.

Итак, считаем, что мы уже нашли на фотографии линию корешка, воспользуемся этим знанием, чтобы определить ваниш-точки для страниц разворота (vanishing point). Ваниш-точки – это точки схождения параллельных прямых в перспективной проекции книги на плоскость изображения. Они обе должны располагаться на продолжении этой линии, но для каждой из страниц положение точки может быть свое. Схематически это показано на следующей иллюстрации (на самом деле, это лог для отладки). Линия корешка выделена красным, линии, пересекающиеся в ваниш-точках, – зеленым.

Читать дальше →

+62

@saul 18 окт 2016 в 07:10

Новые возможности Intel RealSense SDK 2016 R2

5 мин

4.8K

Блог компании IntelПрограммирование * Обработка изображений * Интернет вещей

Перевод

Второй выпуск Intel RealSense SDK (для Windows) в 2016 году (2016R2) — версия 10.0.26.0396. В новой версии значительно улучшена работа модулей сегментации фона (BGS), отслеживания рук в режиме указателя и модуля 3D Scan для камеры SR300. Первые два модуля доступны уже в виде «золотой» версии, модуль 3DScan для SR300 перешел на уровень бета-версии. Для камеры R200 некоторые компоненты модуля Enhanced Photography (EP) перешли на «золотой» уровень, в том числе EP Meaurement. При этом модули EP Realtime Depth Enhancement и EP Tracking пока остались на уровне предварительного ознакомления. Остальные функции R200 не изменились.

Читать дальше →

+7

@ZlodeiBaal 17 окт 2016 в 20:47

Как стать супер-мега-про машинного обучения за 15 минут

3 мин

34K

Машинное обучение * Обработка изображений *

Туториал

Недавно на Хабре проскакивал пост vfdev-5 о DIGITS. Давайте поподробнее разберёмся что это такое и с чём его едят. Если в двух словах. Это среда, которая позволяет решить 30-50% задачек машинного обучения на коленке в течении 5 минут. Без умения программировать. Ну, при наличии базы, конечно. И более-менее адекватной карточки от NVIDIA.

Читать дальше →

+46

@ZlodeiBaal 16 окт 2016 в 21:28

Колыбель для AI

8 мин

18K

Машинное обучение * Обработка изображений *

Туториал

Есть одна тема в современном Computer Vision, которая часто остаётся за кадром. В ней нет сложной математики и глубокой логики. Но то что её никак не освещают — вгоняет в ступор многих новичков. А тема не проста: имеет множество граблей, про которые не узнаешь, пока не наступишь.

Тема — называется так: подготовка базы изображений для дальнейшего обучения.
В статье:

Как можно отличить хорошую базу
Примеры хороших баз
Примеры программ, которыми удобно размечать базы

Читать дальше →

+34

@mephistopheies 12 окт 2016 в 15:59

Обзор топологий глубоких сверточных нейронных сетей

18 мин

113K

Блог компании VKАлгоритмы * Математика * Машинное обучение * Обработка изображений *

Это будет длиннопост. Я давно хотел написать этот обзор, но sim0nsays меня опередил, и я решил выждать момент, например как появятся результаты ImageNet’а. Вот момент настал, но имаджнет не преподнес никаких сюрпризов, кроме того, что на первом месте по классификации находятся китайские эфэсбэшники. Их модель в лучших традициях кэгла является ансамблем нескольких моделей (Inception, ResNet, Inception ResNet) и обгоняет победителей прошлого всего на полпроцента (кстати, публикации еще нет, и есть мизерный шанс, что там реально что-то новое). Кстати, как видите из результатов имаджнета, что-то пошло не так с добавлением слоев, о чем свидетельствует рост в ширину архитектуры итоговой модели. Может, из нейросетей уже выжали все что можно? Или NVidia слишком задрала цены на GPU и тем самым тормозит развитие ИИ? Зима близко? В общем, на эти вопросы я тут не отвечу. Зато под катом вас ждет много картинок, слоев и танцев с бубном. Подразумевается, что вы уже знакомы с алгоритмом обратного распространения ошибки и понимаете, как работают основные строительные блоки сверточных нейронных сетей: свертки и пулинг.

Читать дальше →

+105

@luciana 10 окт 2016 в 20:40

Как мы помогали проводить медицинскую перепись в Республике Бангладеш

7 мин

7.2K

Блог компании Content AIОбработка изображений *

Бангладеш – государство в юго-восточной Азии, занимает восьмое место в мире по численности населения (Россия, по данным Википедии, сейчас на 9 месте), граничит с Индией и Бирмой. Подавляющее большинство бангладешцев – сельские жители (135 миллионов из 160), и условия их жизни, мягко говоря, далеки от идеальных. Не во всех домохозяйствах есть доступ к питьевой воде, санитарные условия оставляют желать лучшего.

Сегодняшний наш материал о том, как при помощи нашего ABBYY FlexiCapture министерство здравоохранения Бангладеш обработало результаты медицинской переписи — такая перепись нужна, чтобы принимать правильные стратегические решения в области здравоохранения.

Читать дальше →

+54

@Alex_2016 6 окт 2016 в 06:40

Новая программа способна восстанавливать информацию, скрытую с помощью пикселизации

2 мин

7.2K

Блог компании Panda Security в России и СНГИнформационная безопасность * Обработка изображений *

Перевод

Многие предприятия обмениваются документами, которые пикселизированы, чтобы защитить личную информацию: это могут быть номера банковских счетов, фотографии или любая другая персональная информация. Хотя используемая для этого пикселизация должна быть простым и эффективным способом сокрытия конфиденциальной информации, но теперь компьютеры стали достаточно «умны», чтобы «прочитать» такие искаженные образы, даже если Ваш глаз не может этого сделать. Пикселизированные документы более не являются безопасными!

Читать дальше →

-12

@AntonCheloshkin 5 окт 2016 в 08:23

EBU R128/BS.1770-3: Пакетная нормализация громкости аудио/видео файлов

2 мин

18K

Обработка изображений * Занимательные задачкиOpen source *

Из песочницы

Всем привет!
Решил поделиться опытом автоматизации контроля громкости вещания своего СМИ. Думаю, у всех профильных технарей давно болит голова, точно продолжает болеть. Введенная Минкомсвязи рекомендация в области нормирования громкости звуковых сигналов вызвала волны возмущения.
Не было предоставлено ни средств контроля, ни средств производства. Крутитесь как хотите.
Впрочем, уже давно, задолго до того знакового события существуют различные плагины к монтажным программам.
Но как быть если уже накоплена огроменная медиабаза?

Читать дальше →

+10

@Beetle_ru 27 сен 2016 в 08:51

[SC]Работаем со сканером

11 мин

14K

Блог компании Т-Банк.NET * C# * Обработка изображений *

Туториал

Последние несколько лет мы с коллегами пытаемся сделать так, чтобы в офисе стало меньше бумаги. С цифровыми документами сотрудники работают быстрее и качественнее — да и пыли становится в разы меньше.

Чтобы полностью перейти на цифровые документы сначала надо отсканировать бумажные. Для разработки десктопных приложений сканировщиков мы используем .NET Framework. Из коробки он не предоставляет средств для работы со сканерами. Поскольку .NET дружит с COM, можно использовать компонент WIA (Windows Imaging Architecture).

Читать дальше →

+15

@GoTech-vc 26 сен 2016 в 11:24

Где распознают лица

6 мин

5.1K

Блог компании GoTech.vcИнформационная безопасность * Обработка изображений *

Компания VisionLabs, которая специализируется на технологии распознавания лиц, меньше чем за год стала одним из победителей конкурса Web Ready (с 2016 года — GoTech), вошла в список 12 финалистов программы Challenge UP!, организованной Intel, Cisco и Deutsche Telekom AG, а также привлекла 350 млн рублей инвестиций венчурного фонда Sistema Venture Capital.

Александр Ханин, генеральный директор компании, рассказывает о том, как технологии распознавания лиц внедряются в коммерческом секторе, какое их ждет будущее и как к ним относятся те, кто попадает в объектив, а также выделяет решения, которые могут составить им конкуренцию.

Читать дальше →

+5

@ZlodeiBaal 21 сен 2016 в 23:04

О новых успехах противостояния (СР УВЧ!*)

3 мин

17K

Алгоритмы * Машинное обучение * Обработка изображений *

Пару дней назад появилась статья, которую почти никто не освещал. На мой взгляд, она замечательная, поэтому про неё расскажу в меру своих способностей. Статья о том, чего пока не было: машину научили играть в шутер, используя только картинку с экрана. Вместо тысячи слов:

Не идеально, но по мне — очень классно. 3D шутер, который играется в реальном времени — это впервые.

А теперь чуть-чуть теории

+42

@Andrew2016 20 сен 2016 в 11:06

Сжатие мобильной графики в формат ETC1 и открытая утилита

9 мин

18K

Блог компании PlayrixАлгоритмы * Обработка изображений * Разработка игр * Разработка мобильных приложений *

При развитии free-to-play мобильной игры вместе с новыми фичами регулярно добавляется и новая графика. Часть ее включается в дистрибутив, часть скачивается в ходе игры. Для возможности запуска приложения на устройствах с небольшим размером оперативной памяти разработчики применяют аппаратно сжатые текстуры.

Формат ETC1 обязателен к поддержке на всех Android-устройствах с OpenGL ES 2.0 и является хорошей отправной точкой оптимизации потребляемой оперативной памяти. По сравнению с форматами PNG, JPEG, WebP загрузка текстур ETC1 осуществляется без интенсивных расчетов обычным копированием памяти. Также улучшается производительность игры по причине меньших размеров данных текстур пересылаемых из медленной памяти в быструю.

Читать дальше →

+22

1 2 ...

84

85 86 ...