Все потоки
Поиск
Написать публикацию
Обновить
53.96

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

О важности датасета и о том, как сделать его лучше. Опыт нашей компании

Время на прочтение9 мин
Количество просмотров10K

Краеугольный камень любого проекта, связанного с компьютерным зрением - датасет. Это не просто набор изображений, который передается нейросети. Датасет - это базовый блок, который определит качество и точность определения объектов в рамках вашего проекта.

Нельзя просто собрать набор изображений из гугла и успокоиться - полученная куча изображений не будет нести гордое название «датасет» и испортит проект, вынуждая разработчика и компьютерное железо тренировать модель снова и снова.

Мы подготовили 7 основных шагов, которые превратят набор картинок из гугла не просто в мощный базовый блок системы компьютерного зрения, но и основной инструмент по выявлению и устранению ошибок распознавания.

Читать далее

Разметка данных в машинном обучении: процесс, разновидности и рекомендации

Время на прочтение14 мин
Количество просмотров66K

Когда люди слышат про искусственный интеллект, глубокое обучение и машинное обучение, многие представляют роботов из фильмов, интеллект которых сравним или даже превосходит интеллект человека. Другие считают, что такие машины просто потребляют информацию и учатся на ней самостоятельно. Но на самом деле это далеко от истины: без человеческой помощи возможности компьютерных систем ограничены, и чтобы они стали «умными», необходима разметка данных.

В этой статье мы расскажем, что такое разметка данных, как она работает, о типах разметки данных и о рекомендациях, позволяющих сделать этот процесс беспроблемным.
Читать дальше →

OpenCV — быстрый старт: базовые операции с изображениями

Время на прочтение4 мин
Количество просмотров19K

Судя по количеству закладок на первой части, работа моя  —  не зряшная.
В прошлый раз разбирали скучное открывание-закрывание картинки, в этот раз засунем в неё руки поглубже:

 • Доступ к пикселям и работа с ними
 • Масштабирование картинки
 • Обрезка
 • Отражение

Айда разбираться

Как снимался фильм «Трон»

Время на прочтение9 мин
Количество просмотров7.6K

Вот лишь один любопытный факт: аниматорам «Трона» приходилось копировать сцены компьютерной графики на миллиметровую бумагу, а затем вычислять координаты и углы для каждого элемента в каждом кадре. Другие подробности рассказываем под катом к старту нашего флагманского курса по Data Science.

Читать далее

OpenCV — быстрый старт: начало работы с изображениями

Время на прочтение5 мин
Количество просмотров57K

Перевожу родной OpenCV-шный стартовый . И он хорош! (Сложно сказать, чем не понравились те, что уже есть.)
Изначально туториал в виде ноутбука, поэтому что-то я убрал. А что-то добавил. В общем, это помесь перевода с пересказом.

туториал

Айда разбираться

Кручу-верчу, обмануть хочу

Время на прочтение12 мин
Количество просмотров2.6K

Long story short

Создают ли повороты ложные зависимости в датасете?

Читать далее

[В закладки] Аналоги Canva: 12 сервисов для работы с изображениями

Время на прочтение5 мин
Количество просмотров9.1K

Когда сервис Canva объявил о прекращении работы в России, многие SMM-специалисты, маркетологи, дизайнеры, таргетологи остались без одного из главных инструментов для работы с креативами. Рассказываем о подборке сервисов, имеющих схожий функционал, которые могут применяться для решения рабочих задач.

Читать далее

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 7

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров46K

На прошлом уроке мы изучили некоторые способы поиска областей интереса на изображении. Напомню, что мы делали:

пытались найти по цвету (чаще всего так делать не надо);

пытались найти круглый знак посредством функции HoughCircles (иногда работает);

а еще мы изучили морфологические операции (открытие закрытие).

Сегодняшний урок будет более глубоко посвящен работе с контурами, так как часто контур помогает выдели фичи на изображения, а так же области интересов (благодаря контуру, мы можем охватить форму объекта).

Для начала вспомним, как находить контуры.

Читать далее

Шейдеры, голограммы и утечка света на чистом CSS

Время на прочтение7 мин
Количество просмотров4.3K

К старту курса по Fullstack-разработке на Python рассказываем, как на чистом современном CSS имитировать шейдеры аккуратным наложением слоёв и эффектов. За подробностями и демонстрациями приглашаем под кат.

Читать далее

Самого быстрого GIF не существует

Время на прочтение8 мин
Количество просмотров33K

В чём проблема GIF?


Допустим, вы ради шутки хотите создать дико трясущийся GIF (ссылка). Редактор GIF позволяет задать длительность/задержку кадра, поэтому для максимальной тряски вы указываете самое маленькое значение. Но при просмотре получившегося GIF оказывается, что она проигрывается гораздо медленнее, чем задумано, и вы точно видели более быстрые GIF. Что же происходит?

Если вы читаете эту статью, чтобы исправить свой GIF и вам нужен чёткий ответ, то вот решение: установите задержку кадра не на 10 мс, а на 20 мс. Если вы хотите чуть больше узнать о GIF и о том, почему возникает этот пограничный случай, а также о том, как улучшить ситуацию, то продолжайте чтение!

(Пояснение: если вы читаете статью из далёкого утопического будущего, где это перестало быть проблемой, то некоторые из примеров GIF будут не особо понятными. В противном случае, мои соболезнования, и можете не обращать на это пояснение внимания.)


Я, когда мои GIF слишком медленные
Читать дальше →

Возим «ложкой» по ковшу жидкого чугуна и снимаем «шлакопенку»

Время на прочтение6 мин
Количество просмотров17K


Представьте себе огромный ковш с жидким чугуном. В нём есть две примеси, которые мешают ему стать качественной сталью: фосфор и сера. Фосфор удаляют в конвертере на первом этапе выплавки стали, а вот серу нужно как-то убрать заранее. Для этого в расплав вдуваются реагенты вроде оксида магния, которые в ковше реагируют с серой, и продукты реакции всплывают наверх в виде шлаков типа пенки на молоке.

Ковш при этом накрыт крышкой-платформой, температуры там не самые приятные для электроники. У нас есть максимум 10 минут на то, чтобы снять этот шлак с помощью скиммера (такого огромного железного скребка), затем выдвижная стрела сильно перегревается. Задача — убрать почти всю серу из расплава.

Раньше задача решалась на глаз: специалисты цеха делали несколько движений скиммером по ковшу, ориентировались на количество оставшегося шлака в поле зрения и решали, что всё, вроде его осталось мало. Но «вроде» никого не устраивало.

А лишние движения скиммером — это лишние несколько тонн потерянного чугуна. Если же сделать движений меньше, чем надо для 95 % удаления, то дальше мы не попадём в физико-химические свойства сортамента стали. К тому же время, уходившее на снятие шлака, разнилось от плавки к плавке: где-то оператор справлялся за четыре минуты, а где-то — за все восемь с половиной. А каждая выигранная минута повышает производительность конвертера.

В итоге мы придумали, что можно поставить камеру около заливочного носка ковша (который обычный человек называет носиком), чтобы видеть количество оставшегося шлака на зеркале и точно определить процент его удаления, который даже через десятилетия опыта на глаз определяется сложно.

Уже полгода система в опытной эксплуатации, и, похоже, можно праздновать победу.
Читать дальше →

Обзор архитектур image-to-image translation

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров8.2K

Привет, Хабр! Я работаю инженером компьютерного зрения в направлении искусственного интеллекта компании Норникель. Мы разрабатываем и внедряем модели с применением машинного обучения на наши производственные площадки.

В скоуп наших проектов попадают как системы, управляющие (или частично управляющие) технологическим процессом (например, флотация или плавка), так и системы промышленного машинного зрения, которые по сути представляют из себя одну из разновидностей датчиков.

В этой статье я расскажу про основные архитектуры генеративных сетей для задачи перевода изображения из одного домена в другой (image-to-image translation). В конце расскажу, для чего именно мы применяем синтетические данные и приведу примеры изображений, которых нам удалось достичь. Но перед погружением в данную тему рекомендую ознакомиться с тем, что такое свёрточная сеть, U-Net и генеративная сеть. Если же Вы готовы, поехали.

Читать далее

Интеграция картин в видео фасада здания за 60 часов

Время на прочтение7 мин
Количество просмотров3.2K

Художник-монументалист - человек, который выполняет действительно Большие Задачи. Вот и со мной рядом был такой человек, у которого еще не горел, но активно приобретал характерную черную корочку диплом.

На диплом художник выбрал Российскую национальную библиотеку (они выбирают объекты, и декорируют их). В итоге - 9 отдельных картин предполагаемых в технике мозаика были готовы украшать фасад здания. Сделать диплом - это полдела, но более важной задачей является подать его. По задумке камера должна вальяжно облетать здание, масштабироваться и проходить по замысловатым траекториям. Но вот незадача, курс 3D моделирования длился полгода, а результатом была модель пустой комнаты, с плинтусами и окнами. Отчаянные просмотры роликов на YouTube по темам «Как сделать 3D иллюстрации Adobe» дали понять одно - 3D визуализации не будет. Больно, грустно, обидно - но дедлайн заставляет креативить.

И вот, в один из теплых весенних вечеров, находясь в своих раздумьях, наш герой-монументалист выдал следующую фразу: «Эээх, можно конечно сделать бы видео с  покадровой анимацией. Статично конечно, но зато с разных ракурсов и чтобы веточки чуть-чуть колыхались, люди ходили ну и машины разъезжались - но это же помереть можно как много копипастить, да еще и каждую картинку подогнать надо.».

Мое глубокое подсознание положило эту мысль в стек головного мозга и достало его оттуда, как это водится, перед самым сном. «Так ведь можно это все реализовать программно. Распознать рамки под панно какой-нибудь нейронкой, вставить мозаики попутно сжимая их и растягивая в нужных местах, затенить, выделить контраст и бла бла бла» подумал наш герой-программист и его было уже не остановить…

Читать далее

Ближайшие события

Сжимаем изображения без потерь: какой формат выбрать?

Время на прочтение8 мин
Количество просмотров33K

Одна из тестовых фотографий, сжатие без потерь на 41%

Для сжатия изображений без потерь принято использовать PNG. Его обычно применяют для логотипов, скриншотов, диаграмм, где есть сплошные области с одинаковым цветом. Такие области сжимаются лучше всего: все lossless-кодеки используют классический RLE, то есть кодирование повторов. В некоторых случаях это обеспечивает даже лучший коэффициент сжатия, чем JPEG. И никаких искажений.

Но PNG не используют для фотографий — файлы слишком большие. Однако сейчас, с появлением кодеков нового поколения, ситуация должна измениться. Фотографии будут кодировать без потерь в файлы меньшего размера, а PNG наконец-то уйдёт на покой (см. результаты тестирования в конце статьи).
Читать дальше →

GAN-модели для генерации набора данных из изображений

Время на прочтение6 мин
Количество просмотров5.1K

Привет, Хабр! Для машинного обучения в специфических областях очень остро стоит проблема нехватки данных для обучения.  Давайте рассмотрим один из способов генерировать изображения.

Читать далее

Картинкам нельзя верить. Видеоспуфинг в реальном времени

Время на прочтение3 мин
Количество просмотров21K


Некоторые люди полагаются на зрение для распознавания личности собеседника. Это крайне ненадёжный подход, если можно подделать картинку на экране. В эпоху цифровой видеосвязи внешность, голос и поведение человека перестали выполнять функцию надёжной идентификации.

За последние годы разработано несколько эффективных инструментов для подделки видеопотока, в том числе Avatarify Desktop и Deepfake Offensive Toolkit. Таким образом, у злоумышленников появились все возможности, чтобы подделать лицо и голос произвольного человека во время звонка. Специалисты по безопасности и пользователи должны понимать, насколько элементарно выполняется такая операция.
Читать дальше →

Опенсорсные массивы данных для Computer Vision

Время на прочтение8 мин
Количество просмотров4.2K

Модели Computer Vision, обучаемые на опенсорсных массивах данных


Computer Vision (CV) — одна из самых увлекательных тем в сфере искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML). Это важная часть многих современных конвейеров AI/ML, преобразующая практически все отрасли и позволяющая компаниям осуществлять революцию в работе машин и бизнес-систем.

В науке CV многие десятилетия была уважаемой областью computer science, и за многие годы в этой сфере было проведено множество исследований по её совершенствованию. Однако революцию в ней совершило недавно начавшееся применение глубоких нейросетей, ставшее стимулом ускорения её развития.
Читать дальше →

CPPN + музыка. Генерируем музыкальное видео

Время на прочтение7 мин
Количество просмотров2.7K

Привет, Хабр. Мне не удалось найти русскоязычные статьи, посвященные генерации артов с помощью архитектуры CPPN, поэтому я сам расскажу о том, что можно с ней сделать. Это позволит скрасить пару вечеров и сгенерировать себе, например, обои на рабочий стол. А может и придумать что-нибудь серьезное. 

Лично я воспользовался такой архитектурой, чтобы сгенерировать абстрактное музыкальное видео на одну из своих композиций. Плюс добавил к нему ритмических пульсаций, о чем расскажу далее.

Читать далее

Papers, please! Как устроены сервисы по распознаванию лиц для идентификации клиента и проверки документов

Время на прочтение8 мин
Количество просмотров6.3K

В популярной в свое время игре Papers, please! игрок выполняет роль таможенника, проверяющего документы по все более усложняющимся правилам. Главная игровая механика - проверка документов на соответствие всем нормам, таким как верная дата и место выдачи, соответствие имени и фамилии человека на всех документах, срок действия визы, наличие человека в “черных” списках и тому подобное.

Игра привлекла тысячи пользователей по всему миру самобытным стилем и необычной механикой игры, однако для некоторых людей подобная игра показалась бы настоящим кошмаром, ведь в реальной жизни, на своей реальной работе они занимаются тем же самым.

Читать далее

Предварительное обучение новой модели CoCa на мультимодальных объектах

Время на прочтение5 мин
Количество просмотров2.2K

Новаторская работа в области компьютерного зрения показала эффективность моделей с одним кодером, предварительно обученным классификации изображений, для захвата обобщённых визуальных представлений, эффективных в других задачах. Подробности рассказываем к старту флагманского курса по Data Science.

Читать далее

Вклад авторов