В этой одежде системы распознавания будут считать вас животным / Habr

У Рэйчел Дидеро интересный набор навыков: несколько степеней в области дизайна одежды (полученные в школах трех разных стран) и докторская степень в области машинного обучения Миланского политехнического университета.

Эти знания позволили ей выпустить коллекцию — довольно уродливой — одежды Manifesto. Она страшная и безвкусная, зато в ней вы становитесь нераспознаваемые для ML-алгоритма детектирования Yolo, активно используемого для работы с уличными камерами.

Поскольку, в виде одного из хобби, я занимаюсь проблемами распознавания объектов, мне было интересно не только описать сам подход к алгоритму и его возможному обману, так и то, что наше будущее, очевидно, будет не таким, как мы представляем. И это интересно исследовать.

Проект родился в 2019 году в Нью-Йорке. В то время Рэйчел училась в Технологическом институте моды и однажды, во время беседы с одним из инженеров калифорнийского университета в Беркли, у Дидеро возникла идея сделать моду союзником в отстаивании права на конфиденциальность.

Несколько месяцев исследований привели к созданию особой ткани на основе пряжи Filmar, заводящей в тупик системы распознавания людей. Благодаря необычным узорам камеры считают, что перед ними зебры, слоны, жирафы или собаки и даже не пытаются перейти к распознаванию личности.

Небольшое лирическое отступление, объясняющее, почему данная тема мне кажется интересной:

Существует такой термин как ретрофутуризм — т.е такое описание будущего, которое базируется на текущих представлениях о технологиях. Типичное представители ретрофутуризка — картинки из фанастических журналов, предсталвющие XXI-век. Темы типа сегодняшней показывают, что будущее будет совершенно другим. И помогут им в этом прерывные технологии.
Отличительная черта прорывной технологии — использование ее не так, как задумывалось изначально. В этом прелесть как ML, так предложенной Рейчел одежды. Т.е. первостепенная функция одежды сильно меняется.
Мне интересна сама идея детектирования животных. В свое время я принимал участие в интересном проекте по детектированию оленей в Арктике. Пришлось учить сетку различать самок, самцов и детенышей. Поэтому было интересно разобраться в текущем алгоритме и в том, почему он ведет себя именно так

Но вернемся к алгоритмам: дидеро тестировала свою коллекцию на алгоритме YOLO (You Only Look Once — ты смотришь только раз). Благодаря своей скорости YOLO получил заслуженное признание как инструмент для потокового анализа видео.

Более подробно о том, как работает YOLO можно прочитать вот здесь. Если очень по-простому, то входящая картинка расслаивается на несколько смысловых слоев, каждый из которых разбивается на 4 признака. Вместо того чтобы использовать на выходе результаты только последнего слоя, алгоритм на каждом шаге учитывает выход всех предыдущих слоев, а также оригинал, тем самым повышая свою точность.

Соответственно, если распознаванию мешает «навязчивое» соотнесение в сторону собаки или жирафа, человек на видео детектирован не будет.

Исследования показывают, что минимум в 60% случаев люди, одетые в один из элементов одежды Manifesto, не детектируются как люди. Процент можно увеличить, если использовать больше элементов коллекции, а также капюшоны и маски.

Кстати, если задать вопрос ChatGPT, как должна выглядеть одежда, не позволяющая искусственному интеллекту распознать человека на видео, то нейросеть дает несколько дополнительных советов:

Использовать нестандартные формы одежды, которые могут смешаться с фоном и не давать четких контуров тела.
Избегать наличие надписей, логотипов и других графических элементов, которые могут облегчить распознавание.

Небольшой апдейт: в комментариях привели несколько примеров, говорящих о том, что прогон фотографий через Yolo приводит к отличному детектированию людей (спасибо V_PA)

Забавно, что если мы прибавим к данному знанию еще одно исследование, говорящее, что аниме-прическа с неровными прядями также затрудняет распознавание лиц, то мы получим весьма интересный образ штурмовиков будущего, работающих в условиях города. Похоже, что битва со Скайнет будет выглядеть, кхм, ярко и необычно.

Не буду говорить, о намеренном вранье дизайнеров, предположу лишь, что:

при тестировании одежды использовалось видео, а не качественные фотографии
Рассматривались ракурсы, более привычные именно городским системам наблюдения.
Забавно, что даже на этом фото девушки определись с вероятностью 0.6, тогда как парни — полностью 0,9 :)

Но в любом случае, сама идея такой одежды — именно как хардварный взлом алгоритма — кажется мне интересной. Забавно, что если мы прибавим к данному знанию еще одно исследование, говорящее, что аниме-прическа с неровными прядями также затрудняет распознавание лиц, то мы получим весьма интересный образ штурмовиков будущего, работающих в условиях города. Похоже, что битва со Скайнет будет выглядеть, кхм, ярко и необычно.

Полезный раздел для тех, кому интересна тема детектирования объектов и компьютерного зрения вообще:

Ссылки для тех, кому показалась интересной как сама тема одежды, так и алгоритмы распознования, используемые в ML:

Еще о хардварном взломе: Американец Мак Пирс создал толстовку со встроенными в капюшон светодиодами, которые «слепят» камеры с функцией ночного видения.
Почему именно Yolo часто используется при распозновании видео. Ответ: отличноее соотношение скорость/качество
Небольшой переведенный гайд о том, как обучить Yolo на пользовательском наборе данных
Поскольку у Yolo несколько модификаций, то вот отличное сравнение производительности моделей обнаружения объектов YOLO v5, v6 и v7
Великолепный кейс применения Yolo для нахождения парковочного место за 5 секунд

Если вас интересует компьютерное зрение вообще и вы только начинаете, то крайне рекомедую следующие материалы:

Бесплатный онлайн-курс «Введение в компьютерное зрение» от Антона Кунушина (МГУ)
Две статьи на Хабре от МФТИ под общим названием «Вижу, значит существую: обзор Deep Learning в Computer Vision. В первой рассказывается про классификацию изображений и сверточные нейросети, во второй — про детектирование лиц вообще и Yolo в частности. Кстати, курс из первого пункта упоминается и в этих статьях.
Учебник по машинному обучению от Яндекса
Не только люди: 17 вариантов того, где может использоваться компьютерное зрение (на английском, поэтому, если вы недостаточно хорошо им владеете, чтобы читать материал — крайне рекомендую использовать переводчик DeepL)

На кого подписаться на Хабре:

блог @ZlodeiBaal. К примеру, его последний пост про »Распознавание товаров на полках".
Блог сообщетва Open Data Science

В этой одежде системы распознавания будут считать вас животным

Полезный раздел для тех, кому интересна тема детектирования объектов и компьютерного зрения вообще:

{{ titleHtml }}

{{ titleHtml }}