Обновить
256K+

Обработка изображений *

Работаем с фото и видео

82,92
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Нужно больше разных Blur-ов

Время на прочтение5 мин
Охват и читатели17K
Размытие изображения посредством фильтра Gaussian Blur широко используется в самых разных задачах. Но иногда хочется чуть большего разнообразия, чем просто один фильтр на все случаи жизни, в котором регулировке поддаётся только один параметр — его размер. В этой статье мы рассмотрим несколько других реализаций размытия.


Читать дальше →

На чём прокалывается ИИ при генерации человеческих лиц

Время на прочтение3 мин
Охват и читатели27K
В 2014 году исследователь в области машинного обучения Ян Гудфеллоу выдвинул идею генеративных состязательных сетей или GAN. «Генеративность» состоит в том, что результатом их работы являются изображения, а не оценка ввода (типа «хот-дог или нет»), а «состязательность» — в том, что две нейросети играют в кошки-мышки, как федералы с фальшивомонетчиками: одна нейросеть пытается обмануть другую, создавая реалистичные картинки, а вторая старается отличить фейк.

Первые изображения GAN было легко идентифицировать. Посмотрите на эти лица 2014 года.


«Обучение без учителя представлению с глубокими свёрточными генеративными состязательными сетями» (2014), Рэдфорд и др. Также известны как DCGAN
Читать дальше →

Научный корпоратив Smart Engines (или как мы ездили на ICMV 2018)

Время на прочтение4 мин
Охват и читатели1.3K

Каждая уважающая себя IT-компания ценит своих сотрудников. Это выражается не только в хороших зарплатах, гибких графиках и домашнем уюте в офисе (что, несомненно, является важным материальным показателем ценности сотрудника), но и в проведении различных мероприятий из серии “для души”. Именно поэтому в новостях часто мелькают заметки про то, как крупные IT компании арендуют рестораны/пансионаты/яхты для проведения различного рода корпоративов. И, наверное, это все очень здорово, дружно и весело. Наверное, в такие моменты активно процветает тот самый мифический тимбилдинг, про который так любят говорить за границей. И все-таки, у нас в Smart Engines свой взгляд на то, как лучше потратить честно заработанные деньги с наибольшей пользой для сотрудников.

Читать дальше →

Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Время на прочтение11 мин
Охват и читатели7.8K
Недавно системный аналитик технологического департамента компании ABBYY Егор Будников выступил в «Яндексе» на конференции «Data & Science: закон и делопроизводство». Он рассказал, как работает компьютерное зрение, происходит обработка текстов, на что важно обращать внимание при извлечении информации из юридических документов и о многом другом.


— У компании могут быть развитые методологии анализа данных и электронный документооборот, при этом от клиентов или от соседних отделов в компанию могут приходить документы, созданные в Word, при этом распечатанные, отксерокопированные, отсканированные и принесенные на флешке.

Что же делать с документооборотом, который есть сейчас, с «грязными» документами, с бумажным хранением, вплоть до того, что документы могут храниться до 70 лет, прежде чем они отсканированы и должны быть распознаны?
Читать дальше →

Сравнение лучших API для фильтрации непотребного контента

Время на прочтение6 мин
Охват и читатели15K
Полное тестирование нескольких API для фильтрации изображений различных категорий, таких как нагота, порнография и расчленёнка.



Человек сразу понимает, что некое изображение является неуместным, то есть NSFW (Not Safe For Work). Но для искусственного интеллекта всё не так ясно. Много компаний сейчас пытаются разработать эффективные средства для автоматической фильтрации такого контента.
Читать дальше →

WebP скоро захватит веб, но век будет не долгим

Время на прочтение2 мин
Охват и читатели32K


Стандарт кодирования изображений WebP нельзя назвать новым, его представила Google в уже далёком 2010 году. Однако всё это время использование его было сильно ограничено из-за того, что разработчики браузеров имели собственное мнение по поводу того, какой новый формат изображений должен поддерживать их браузер. Но скоро ситуация изменится, т. к., наконец, поддержка WebP появится на подавляющем большинстве браузеров. Но стандарт WebP рискует стать популярным, будучи уже устаревшим, ведь его конкурент — AVIF, поддерживаемый альянсом большинства разработчиков браузеров, уже в активной разработке.

Читать дальше →

Как мы делали книжный сканер для судов

Время на прочтение3 мин
Охват и читатели21K


Началось всё с того, что однажды мы увидели гигантскую хреновину (иначе не скажешь), которая выглядела один в один, как гидравлический пресс какого-нибудь завода. Она скрипела, шипела и давила книгу. Вокруг бегали специально обученные операторы и шарахались от каждого её движения.

Выяснилось, что разные архивы, библиотеки, суды и другие структуры закупают сканеры, или, скажем так, классические решения, которые по уровню начинки очень напоминают 90-е годы. Потому что тогда были разработаны первые сканеры для библиотек, и их с тех пор не особо модифицировали.

Задачей сканера было механически выровнять сканируемый материал на плоскости, а потом отсканировать.

С тех пор поменялись две вещи:
— Подходы к конструированию электроники.
— Подходы к машинному зрению.

Обзор основных методов Deep Domain Adaptation (Часть 2)

Время на прочтение7 мин
Охват и читатели6.7K

В первой части мы ознакомились с методами доменной адаптации с помощью глубоко обучения. Поговорили об основных датасетах, а также о подходах discrepancy-based и adversarial-based non-generative. Эти методы хорошо себя показывают для некоторых задач. А в этот раз мы разберём наиболее сложные и перспективные adversarial-based методы: generative models, а также алгоритмы, показывающие наилучшие результаты на датасете VisDA (адаптации с синтетических данных под реальные фотографии).


Читать дальше →

Китайская система распознавания лиц посчитала изображение человека на автобусе нарушителем ПДД

Время на прочтение3 мин
Охват и читатели17K


В Китае довольно много разных систем, использующих распознавание лиц. Одна из них уже пару лет работает на дорогах, борясь с пешеходами, которые пересекают дорогу в неположенном месте. Эта борьба дает определенные плоды — количество нарушений такого рода значительно сократилось.

Но бывают и курьезные случаи. Например, на днях система распознавания лиц «засекла» известную бизнесвумен Китая Дун Минчжу, посчитав ее правонарушителем. Случилось это в китайском городе Нинбо. Системы такого рода выводят изображение на большой экран, чтобы другие граждане могли увидеть того, кто нарушает правила дорожного движения.
Читать дальше →

Обзор основных методов Deep Domain Adaptation (Часть 1)

Время на прочтение13 мин
Охват и читатели21K

Развитие глубоких нейронных сетей для распознавания изображений вдыхает новую жизнь в уже известные области исследования в машинном обучении. Одной из таких областей является доменная адаптация (domain adaptation). Суть этой адаптации заключается в обучении модели на данных из домена-источника (source domain) так, чтобы она показывала сравнимое качество на целевом домене (target domain). Например, source domain может представлять собой синтетические данные, которые можно «дёшево» сгенерировать, а target domain — фотографии пользователей. Тогда задача domain adaptation заключается в тренировке модели на синтетических данных, которая будет хорошо работать с «реальными» объектами.


В группе машинного зрения Vision@Mail.Ru мы работаем над различными прикладными задачами, и среди них часто встречаются такие, для которых мало тренировочных данных. В этих случаях сильно может помочь генерация синтетических данных и адаптация обученной на них модели. Хорошим прикладным примером такого подхода является задача детектирования и распознавания товаров на полках в магазине. Получение фотографий таких полок и их разметка довольно трудозатратны, зато их можно достаточно просто сгенерировать. Поэтому мы решил глубже погрузиться в тему доменной адаптации.


Читать дальше →

Intel Neural Compute Stick. Искусственный разум на флешке — 2

Время на прочтение1 мин
Охват и читатели37K


Не дожидаясь, когда другие вендоры воспользуются ее референсным дизайном AI-модулей на все случаи жизни, Intel сама вывела на рынок новое поколение специализированного компьютера в форм-факторе USB-донгла — Intel Neural Compute Stick 2. Предыдущий Compute Stick еще носил имя Movidius и был выпущен в 2017 году непосредственно после покупки Intel одноименной компании. Теперь у него новое название и новый процессор, существенно превосходящий по производительности предыдущий. А вот цена осталась та же.

Повышение качества склейки панорамы с помощью согласования графа проективных преобразований

Время на прочтение8 мин
Охват и читатели5.7K

Привет, Хабр! Сегодня мы расскажем про один из способов повышения качества склейки панорамы. Существует широко используемый подход склейки панорамы плоских объектов, но поскольку данный подход не лишен недостатков, мы предлагаем свое улучшение.

Читать дальше →

Как мы заменили спортивного скаута нейронной сетью

Время на прочтение9 мин
Охват и читатели10K

Да, действительно, мы смогли заменить нейронной сетью спортивного скаута и стали автоматически собирать данные об игре. И теперь знаем о спортивном состязании больше присутствующего на нем зрителя, а иногда и судьи.
Читать дальше →

Ближайшие события

Intel Vision Accelerator — Deep Learning в каждый дом

Время на прочтение2 мин
Охват и читатели6.1K


Отвлечемся ненадолго от темы новых процессоров Intel (это совсем ненадолго) и поговорим о машинном зрении и Deep Learning. Вообще, тема AI стала общей при обсуждении перспектив развития компьютерной техники, и многие, я думаю, заметили следующую особенность. Постепенно, по мере совершенствования специализированных аппаратных и программных средств, элементы AI выходят из дата-центров с супер-серверами «в поля», становятся все более доступными технически и финансово. В Intel также видят эту тенденцию, и, чтобы упростить внедрение передовых технологий в повседневную жизнь, предлагают вендорам воспользоваться их новым решением — Intel Vision Accelerator.
Читать дальше →

Pix4D — от фотографий к измерениям

Время на прочтение6 мин
Охват и читатели22K


Квадрокоптеры и различные БПЛА постепенно становятся привычными инструментами во многих сферах профессиональной деятельности. Очень сложно переоценить возможности дронов в руках фотографов и видеооператоров, но полностью реализовать потенциал этих устройств можно именно в области промышленности и геодезии. В особенности, если коптер работает под управлением специализированного ПО, а материалы аэросъемки проходят компьютерную обработку и используются для анализа различных данных.
Читать дальше →

Как на телефонах работает система Night Sight от Google и почему она так хорошо справляется

Время на прочтение6 мин
Охват и читатели12K

Вас можно простить за то, что после прочтения всех хвалебных отзывов по поводу новой возможности ночной фотографии от Google, Night Sight, вы решите, что компания только что изобрела цветную плёнку. Режимы ночной съёмки появились не вчера, и многим из технологий, на которых они основаны, уже много лет. Но в Google проделали удивительную работу по комбинированию навыков вычислительной фотографии с беспрецедентными способностями в области машинного обучения, чтобы раздвинуть границы возможностей за пределы всего, что мы видели ранее. Давайте рассмотрим историю технологии получения фотографий при низком освещении при помощи нескольких, сделанных подряд снимков, подумаем, как она используется в Google, и предположим, какой вклад в неё вносит ИИ.
Читать дальше →

Восстанавливаем детальную геометрию объектов для более точной валидации ассортимента

Время на прочтение2 мин
Охват и читатели2.4K
Занимаясь вопросами качества поиска, рано или поздно приходится столкнуться с задачей визуальной валидации продуктов. Опустим простые задачи, с которыми справится обычный классификатор, сосредоточившись на случаях, которые требуют более или менее точной геометрии объекта:



Предположим, необходимо отобрать только хорошие фотографии тех или иных объектов, для последующего использования в e-commerce. Под хорошими будем подразумевать фотографии без лишних деталей с доминирующим основным объектом.
Читать дальше →

Программный модуль оцифровки поврежденных документов

Время на прочтение6 мин
Охват и читатели5.5K

Оптическое распознавание символов (OCR) — это процесс получения печатных текстов в оцифрованном формате. Если вы прочитали классический роман на цифровом устройстве или попросили врача поднять старые медицинские записи через компьютерную систему больницы, вы, вероятно, воспользовались OCR.


OCR делает ранее статический контент доступным для редактирования, доступным для поиска и для обмена. Но многие документы, нуждающиеся в оцифровке, содержат кофейные пятна, страницы с загнутыми уголками и множество морщин сохраняют некоторые печатные документы в не оцифрованном виде.


Всем давно известно, что существуют миллионы старых книг, которые хранятся в хранилищах. Использование этих книг запрещено по причине их ветшалости и дряхлости, и поэтому оцифровка этих книг столь важна.


В работе рассматривается задача очистки текста от зашумленности, распознавание текста на изображении и конвертации его в текстовый формат.


image


Для обучения использовалось 144 картинки. Размер может быть разным, но желательно должен быть в пределах разумного. Картинки должны иметь формат PNG. После считывании изображения используется бинаризация – процесс преобразования цветного изображения в черно-белое, то есть каждый пиксель нормализуется в диапазон от 0 до 255, где 0 – это черный, 255 – белый.


Чтобы обучить сверточную сеть, нужно больше изображений, чем имеется. Было принято решение разделить изображения на части. Так как обучающая выборка состоит из картинок разного размера, каждое изображение было сжато до 448х448 пикселей. В результате получилось 144 изображения в разрешении 448х448 пикселей. После чего все они были нарезаны на неперекрывающиеся окна размером 112x112 пикселей.

Читать дальше →

Эти новые уловки пока ещё способны перехитрить видеоролики от Deepfake

Время на прочтение7 мин
Охват и читатели31K


Несколько недель специалист по информатике Сывей Люй [Siwei Lyu] наблюдал за роликами deepfake, созданными его командой, с терзающим беспокойством. Эти поддельные фильмы, созданные при помощи алгоритма машинного обучения, показывали знаменитостей, занимающихся такими вещами, которыми бы они не стали заниматься. Они казались ему странно пугающими, и не только потому, что он знал, что они поддельные. «Они неправильно выглядят, — вспоминает он свои мысли, — но очень сложно точно определить, из-за чего складывается такое впечатление».

Но однажды в его мозгу возникло детское воспоминание. Как и многие другие дети, он играл с детьми в «гляделки». «Я всегда проигрывал такие состязания, — говорит он, — потому что, когда я смотрел на их немигающие лица, мне становилось очень не по себе».

Он понял, что эти поддельные фильмы вызывали у него схожий дискомфорт: он проигрывал гляделки этим звёздам кино, поскольку те не открывали и не закрывали глаза с такой частотой, как это делают реальные люди.
Читать дальше →

Вариационные автокодировщики: теория и рабочий код

Время на прочтение11 мин
Охват и читатели24K


Вариационный автокодировщик (автоэнкодер) — это генеративная модель, которая учится отображать объекты в заданное скрытое пространство.

Когда-нибудь задавались вопросом, как работает модель вариационного автокодировщика (VAE)? Хотите знать, как VAE генерирует новые примеры, подобные набору данных, на котором он обучался? Прочитав эту статью, вы получите теоретическое представление о внутренней работе VAE, а также сможете реализовать его самостоятельно. Затем я покажу рабочий код VAE, обученный на наборе рукописных цифр, и мы немного повеселимся, генерируя новые цифры!
Читать дальше →