Все потоки
Поиск
Написать публикацию
Обновить
51.3

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Небольшое исследование свойств простой U-net, классической сверточной сети для сегментации

Время на прочтение18 мин
Количество просмотров23K
Cтатья написана по анализу и изучению материалов соревнования по поиску корабликов на море.

image

Попробуем понять, как и что ищет сеть и что находит. Статья эта есть просто результат любопытства и праздного интереса, ничего из нее в практике не встречается и для практических задач тут нет ничего для копипастинга. Но результат не совсем ожидаем. В интернете полно описаний работы сетей в которых красиво и с картинками авторы рассказывают, как сети детерминируют примитивы — углы, круги, усы, хвосты и т.п., потом их разыскивают для сегментирования/классификации. Многие соревнования выигрываются с помощью весов с других больших и широких сетей. Интересно понять и посмотреть как и какие примитивы строит сеть.
Читать дальше →

Нужно больше разных Blur-ов

Время на прочтение5 мин
Количество просмотров15K
Размытие изображения посредством фильтра Gaussian Blur широко используется в самых разных задачах. Но иногда хочется чуть большего разнообразия, чем просто один фильтр на все случаи жизни, в котором регулировке поддаётся только один параметр — его размер. В этой статье мы рассмотрим несколько других реализаций размытия.


Читать дальше →

На чём прокалывается ИИ при генерации человеческих лиц

Время на прочтение3 мин
Количество просмотров26K
В 2014 году исследователь в области машинного обучения Ян Гудфеллоу выдвинул идею генеративных состязательных сетей или GAN. «Генеративность» состоит в том, что результатом их работы являются изображения, а не оценка ввода (типа «хот-дог или нет»), а «состязательность» — в том, что две нейросети играют в кошки-мышки, как федералы с фальшивомонетчиками: одна нейросеть пытается обмануть другую, создавая реалистичные картинки, а вторая старается отличить фейк.

Первые изображения GAN было легко идентифицировать. Посмотрите на эти лица 2014 года.


«Обучение без учителя представлению с глубокими свёрточными генеративными состязательными сетями» (2014), Рэдфорд и др. Также известны как DCGAN
Читать дальше →

Научный корпоратив Smart Engines (или как мы ездили на ICMV 2018)

Время на прочтение4 мин
Количество просмотров1.3K

Каждая уважающая себя IT-компания ценит своих сотрудников. Это выражается не только в хороших зарплатах, гибких графиках и домашнем уюте в офисе (что, несомненно, является важным материальным показателем ценности сотрудника), но и в проведении различных мероприятий из серии “для души”. Именно поэтому в новостях часто мелькают заметки про то, как крупные IT компании арендуют рестораны/пансионаты/яхты для проведения различного рода корпоративов. И, наверное, это все очень здорово, дружно и весело. Наверное, в такие моменты активно процветает тот самый мифический тимбилдинг, про который так любят говорить за границей. И все-таки, у нас в Smart Engines свой взгляд на то, как лучше потратить честно заработанные деньги с наибольшей пользой для сотрудников.

Читать дальше →

Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Время на прочтение11 мин
Количество просмотров7.4K
Недавно системный аналитик технологического департамента компании ABBYY Егор Будников выступил в «Яндексе» на конференции «Data & Science: закон и делопроизводство». Он рассказал, как работает компьютерное зрение, происходит обработка текстов, на что важно обращать внимание при извлечении информации из юридических документов и о многом другом.


— У компании могут быть развитые методологии анализа данных и электронный документооборот, при этом от клиентов или от соседних отделов в компанию могут приходить документы, созданные в Word, при этом распечатанные, отксерокопированные, отсканированные и принесенные на флешке.

Что же делать с документооборотом, который есть сейчас, с «грязными» документами, с бумажным хранением, вплоть до того, что документы могут храниться до 70 лет, прежде чем они отсканированы и должны быть распознаны?
Читать дальше →

Сравнение лучших API для фильтрации непотребного контента

Время на прочтение6 мин
Количество просмотров13K
Полное тестирование нескольких API для фильтрации изображений различных категорий, таких как нагота, порнография и расчленёнка.



Человек сразу понимает, что некое изображение является неуместным, то есть NSFW (Not Safe For Work). Но для искусственного интеллекта всё не так ясно. Много компаний сейчас пытаются разработать эффективные средства для автоматической фильтрации такого контента.
Читать дальше →

WebP скоро захватит веб, но век будет не долгим

Время на прочтение2 мин
Количество просмотров32K


Стандарт кодирования изображений WebP нельзя назвать новым, его представила Google в уже далёком 2010 году. Однако всё это время использование его было сильно ограничено из-за того, что разработчики браузеров имели собственное мнение по поводу того, какой новый формат изображений должен поддерживать их браузер. Но скоро ситуация изменится, т. к., наконец, поддержка WebP появится на подавляющем большинстве браузеров. Но стандарт WebP рискует стать популярным, будучи уже устаревшим, ведь его конкурент — AVIF, поддерживаемый альянсом большинства разработчиков браузеров, уже в активной разработке.

Читать дальше →

Как мы делали книжный сканер для судов

Время на прочтение3 мин
Количество просмотров21K


Началось всё с того, что однажды мы увидели гигантскую хреновину (иначе не скажешь), которая выглядела один в один, как гидравлический пресс какого-нибудь завода. Она скрипела, шипела и давила книгу. Вокруг бегали специально обученные операторы и шарахались от каждого её движения.

Выяснилось, что разные архивы, библиотеки, суды и другие структуры закупают сканеры, или, скажем так, классические решения, которые по уровню начинки очень напоминают 90-е годы. Потому что тогда были разработаны первые сканеры для библиотек, и их с тех пор не особо модифицировали.

Задачей сканера было механически выровнять сканируемый материал на плоскости, а потом отсканировать.

С тех пор поменялись две вещи:
— Подходы к конструированию электроники.
— Подходы к машинному зрению.

Обзор основных методов Deep Domain Adaptation (Часть 2)

Время на прочтение7 мин
Количество просмотров6.3K

В первой части мы ознакомились с методами доменной адаптации с помощью глубоко обучения. Поговорили об основных датасетах, а также о подходах discrepancy-based и adversarial-based non-generative. Эти методы хорошо себя показывают для некоторых задач. А в этот раз мы разберём наиболее сложные и перспективные adversarial-based методы: generative models, а также алгоритмы, показывающие наилучшие результаты на датасете VisDA (адаптации с синтетических данных под реальные фотографии).


Читать дальше →

Китайская система распознавания лиц посчитала изображение человека на автобусе нарушителем ПДД

Время на прочтение3 мин
Количество просмотров17K


В Китае довольно много разных систем, использующих распознавание лиц. Одна из них уже пару лет работает на дорогах, борясь с пешеходами, которые пересекают дорогу в неположенном месте. Эта борьба дает определенные плоды — количество нарушений такого рода значительно сократилось.

Но бывают и курьезные случаи. Например, на днях система распознавания лиц «засекла» известную бизнесвумен Китая Дун Минчжу, посчитав ее правонарушителем. Случилось это в китайском городе Нинбо. Системы такого рода выводят изображение на большой экран, чтобы другие граждане могли увидеть того, кто нарушает правила дорожного движения.
Читать дальше →

Обзор основных методов Deep Domain Adaptation (Часть 1)

Время на прочтение13 мин
Количество просмотров19K

Развитие глубоких нейронных сетей для распознавания изображений вдыхает новую жизнь в уже известные области исследования в машинном обучении. Одной из таких областей является доменная адаптация (domain adaptation). Суть этой адаптации заключается в обучении модели на данных из домена-источника (source domain) так, чтобы она показывала сравнимое качество на целевом домене (target domain). Например, source domain может представлять собой синтетические данные, которые можно «дёшево» сгенерировать, а target domain — фотографии пользователей. Тогда задача domain adaptation заключается в тренировке модели на синтетических данных, которая будет хорошо работать с «реальными» объектами.


В группе машинного зрения Vision@Mail.Ru мы работаем над различными прикладными задачами, и среди них часто встречаются такие, для которых мало тренировочных данных. В этих случаях сильно может помочь генерация синтетических данных и адаптация обученной на них модели. Хорошим прикладным примером такого подхода является задача детектирования и распознавания товаров на полках в магазине. Получение фотографий таких полок и их разметка довольно трудозатратны, зато их можно достаточно просто сгенерировать. Поэтому мы решил глубже погрузиться в тему доменной адаптации.


Читать дальше →

Intel Neural Compute Stick. Искусственный разум на флешке — 2

Время на прочтение1 мин
Количество просмотров31K


Не дожидаясь, когда другие вендоры воспользуются ее референсным дизайном AI-модулей на все случаи жизни, Intel сама вывела на рынок новое поколение специализированного компьютера в форм-факторе USB-донгла — Intel Neural Compute Stick 2. Предыдущий Compute Stick еще носил имя Movidius и был выпущен в 2017 году непосредственно после покупки Intel одноименной компании. Теперь у него новое название и новый процессор, существенно превосходящий по производительности предыдущий. А вот цена осталась та же.

Повышение качества склейки панорамы с помощью согласования графа проективных преобразований

Время на прочтение8 мин
Количество просмотров5.3K

Привет, Хабр! Сегодня мы расскажем про один из способов повышения качества склейки панорамы. Существует широко используемый подход склейки панорамы плоских объектов, но поскольку данный подход не лишен недостатков, мы предлагаем свое улучшение.

Читать дальше →

Ближайшие события

Как мы заменили спортивного скаута нейронной сетью

Время на прочтение9 мин
Количество просмотров9.7K

Да, действительно, мы смогли заменить нейронной сетью спортивного скаута и стали автоматически собирать данные об игре. И теперь знаем о спортивном состязании больше присутствующего на нем зрителя, а иногда и судьи.
Читать дальше →

Intel Vision Accelerator — Deep Learning в каждый дом

Время на прочтение2 мин
Количество просмотров5.8K


Отвлечемся ненадолго от темы новых процессоров Intel (это совсем ненадолго) и поговорим о машинном зрении и Deep Learning. Вообще, тема AI стала общей при обсуждении перспектив развития компьютерной техники, и многие, я думаю, заметили следующую особенность. Постепенно, по мере совершенствования специализированных аппаратных и программных средств, элементы AI выходят из дата-центров с супер-серверами «в поля», становятся все более доступными технически и финансово. В Intel также видят эту тенденцию, и, чтобы упростить внедрение передовых технологий в повседневную жизнь, предлагают вендорам воспользоваться их новым решением — Intel Vision Accelerator.
Читать дальше →

Pix4D — от фотографий к измерениям

Время на прочтение6 мин
Количество просмотров20K


Квадрокоптеры и различные БПЛА постепенно становятся привычными инструментами во многих сферах профессиональной деятельности. Очень сложно переоценить возможности дронов в руках фотографов и видеооператоров, но полностью реализовать потенциал этих устройств можно именно в области промышленности и геодезии. В особенности, если коптер работает под управлением специализированного ПО, а материалы аэросъемки проходят компьютерную обработку и используются для анализа различных данных.
Читать дальше →

Как на телефонах работает система Night Sight от Google и почему она так хорошо справляется

Время на прочтение6 мин
Количество просмотров12K

Вас можно простить за то, что после прочтения всех хвалебных отзывов по поводу новой возможности ночной фотографии от Google, Night Sight, вы решите, что компания только что изобрела цветную плёнку. Режимы ночной съёмки появились не вчера, и многим из технологий, на которых они основаны, уже много лет. Но в Google проделали удивительную работу по комбинированию навыков вычислительной фотографии с беспрецедентными способностями в области машинного обучения, чтобы раздвинуть границы возможностей за пределы всего, что мы видели ранее. Давайте рассмотрим историю технологии получения фотографий при низком освещении при помощи нескольких, сделанных подряд снимков, подумаем, как она используется в Google, и предположим, какой вклад в неё вносит ИИ.
Читать дальше →

Восстанавливаем детальную геометрию объектов для более точной валидации ассортимента

Время на прочтение2 мин
Количество просмотров2.3K
Занимаясь вопросами качества поиска, рано или поздно приходится столкнуться с задачей визуальной валидации продуктов. Опустим простые задачи, с которыми справится обычный классификатор, сосредоточившись на случаях, которые требуют более или менее точной геометрии объекта:



Предположим, необходимо отобрать только хорошие фотографии тех или иных объектов, для последующего использования в e-commerce. Под хорошими будем подразумевать фотографии без лишних деталей с доминирующим основным объектом.
Читать дальше →

Программный модуль оцифровки поврежденных документов

Время на прочтение6 мин
Количество просмотров5.3K

Оптическое распознавание символов (OCR) — это процесс получения печатных текстов в оцифрованном формате. Если вы прочитали классический роман на цифровом устройстве или попросили врача поднять старые медицинские записи через компьютерную систему больницы, вы, вероятно, воспользовались OCR.


OCR делает ранее статический контент доступным для редактирования, доступным для поиска и для обмена. Но многие документы, нуждающиеся в оцифровке, содержат кофейные пятна, страницы с загнутыми уголками и множество морщин сохраняют некоторые печатные документы в не оцифрованном виде.


Всем давно известно, что существуют миллионы старых книг, которые хранятся в хранилищах. Использование этих книг запрещено по причине их ветшалости и дряхлости, и поэтому оцифровка этих книг столь важна.


В работе рассматривается задача очистки текста от зашумленности, распознавание текста на изображении и конвертации его в текстовый формат.


image


Для обучения использовалось 144 картинки. Размер может быть разным, но желательно должен быть в пределах разумного. Картинки должны иметь формат PNG. После считывании изображения используется бинаризация – процесс преобразования цветного изображения в черно-белое, то есть каждый пиксель нормализуется в диапазон от 0 до 255, где 0 – это черный, 255 – белый.


Чтобы обучить сверточную сеть, нужно больше изображений, чем имеется. Было принято решение разделить изображения на части. Так как обучающая выборка состоит из картинок разного размера, каждое изображение было сжато до 448х448 пикселей. В результате получилось 144 изображения в разрешении 448х448 пикселей. После чего все они были нарезаны на неперекрывающиеся окна размером 112x112 пикселей.

Читать дальше →

Эти новые уловки пока ещё способны перехитрить видеоролики от Deepfake

Время на прочтение7 мин
Количество просмотров31K


Несколько недель специалист по информатике Сывей Люй [Siwei Lyu] наблюдал за роликами deepfake, созданными его командой, с терзающим беспокойством. Эти поддельные фильмы, созданные при помощи алгоритма машинного обучения, показывали знаменитостей, занимающихся такими вещами, которыми бы они не стали заниматься. Они казались ему странно пугающими, и не только потому, что он знал, что они поддельные. «Они неправильно выглядят, — вспоминает он свои мысли, — но очень сложно точно определить, из-за чего складывается такое впечатление».

Но однажды в его мозгу возникло детское воспоминание. Как и многие другие дети, он играл с детьми в «гляделки». «Я всегда проигрывал такие состязания, — говорит он, — потому что, когда я смотрел на их немигающие лица, мне становилось очень не по себе».

Он понял, что эти поддельные фильмы вызывали у него схожий дискомфорт: он проигрывал гляделки этим звёздам кино, поскольку те не открывали и не закрывали глаза с такой частотой, как это делают реальные люди.
Читать дальше →

Вклад авторов