У Рэйчел Дидеро интересный набор навыков: несколько степеней в области дизайна одежды (полученные в школах трех разных стран) и докторская степень в области машинного обучения Миланского политехнического университета.

Эти знания позволили ей выпустить коллекцию — довольно уродливой — одежды Manifesto. Она страшная и безвкусная, зато в ней вы становитесь нераспознаваемые для ML-алгоритма детектирования Yolo, активно используемого для работы с уличными камерами.



Поскольку, в виде одного из хобби, я занимаюсь проблемами распознавания объектов, мне было интересно не только описать сам подход к алгоритму и его возможному обману, так и то, что наше будущее, очевидно, будет не таким, как мы представляем. И это интересно исследовать.


Проект родился в 2019 году в Нью-Йорке. В то время Рэйчел училась в Технологическом институте моды и однажды, во время беседы с одним из инженеров калифорнийского университета в Беркли, у Дидеро возникла идея сделать моду союзником в отстаивании права на конфиденциальность.

Несколько месяцев исследований привели к созданию особой ткани на основе пряжи Filmar, заводящей в тупик системы распознавания людей. Благодаря необычным узорам камеры считают, что перед ними зебры, слоны, жирафы или собаки и даже не пытаются перейти к распознаванию личности.



Небольшое лирическое отступление, объясняющее, почему данная тема мне кажется интересной:

  1. Существует такой термин как ретрофутуризм — т.е такое описание будущего, которое базируется на текущих представлениях о технологиях. Типичное представители ретрофутуризка — картинки из фанастических журналов, предсталвющие XXI-век. Темы типа сегодняшней показывают, что будущее будет совершенно другим. И помогут им в этом прерывные технологии.
  2. Отличительная черта прорывной технологии — использование ее не так, как задумывалось изначально. В этом прелесть как ML, так предложенной Рейчел одежды. Т.е. первостепенная функция одежды сильно меняется.
  3. Мне интересна сама идея детектирования животных. В свое время я принимал участие в интересном проекте по детектированию оленей в Арктике. Пришлось учить сетку различать самок, самцов и детенышей. Поэтому было интересно разобраться в текущем алгоритме и в том, почему он ведет себя именно так


Но вернемся к алгоритмам: дидеро тестировала свою коллекцию на алгоритме YOLO (You Only Look Once — ты смотришь только раз). Благодаря своей скорости YOLO получил заслуженное признание как инструмент для потокового анализа видео.

Более подробно о том, как работает YOLO можно прочитать вот здесь. Если очень по-простому, то входящая картинка расслаивается на несколько смысловых слоев, каждый из которых разбивается на 4 признака. Вместо того чтобы использовать на выходе результаты только последнего слоя, алгоритм на каждом шаге учитывает выход всех предыдущих слоев, а также оригинал, тем самым повышая свою точность.



Соответственно, если распознаванию мешает «навязчивое» соотнесение в сторону собаки или жирафа, человек на видео детектирован не будет.

Исследования показывают, что минимум в 60% случаев люди, одетые в один из элементов одежды Manifesto, не детектируются как люди. Процент можно увеличить, если использовать больше элементов коллекции, а также капюшоны и маски.



Кстати, если задать вопрос ChatGPT, как должна выглядеть одежда, не позволяющая искусственному интеллекту распознать человека на видео, то нейросеть дает несколько дополнительных советов:

  • Использовать нестандартные формы одежды, которые могут смешаться с фоном и не давать четких контуров тела.
  • Избегать наличие надписей, логотипов и других графических элементов, которые могут облегчить распознавание.

Небольшой апдейт: в комментариях привели несколько примеров, говорящих о том, что прогон фотографий через Yolo приводит к отличному детектированию людей (спасибо V_PA)



Забавно, что если мы прибавим к данному знанию еще одно исследование, говорящее, что аниме-прическа с неровными прядями также затрудняет распознавание лиц, то мы получим весьма интересный образ штурмовиков будущего, работающих в условиях города. Похоже, что битва со Скайнет будет выглядеть, кхм, ярко и необычно.

Не буду говорить, о намеренном вранье дизайнеров, предположу лишь, что:
  1. при тестировании одежды использовалось видео, а не качественные фотографии
  2. Рассматривались ракурсы, более привычные именно городским системам наблюдения.
  3. Забавно, что даже на этом фото девушки определись с вероятностью 0.6, тогда как парни — полностью 0,9 :)


Но в любом случае, сама идея такой одежды — именно как хардварный взлом алгоритма — кажется мне интересной. Забавно, что если мы прибавим к данному знанию еще одно исследование, говорящее, что аниме-прическа с неровными прядями также затрудняет распознавание лиц, то мы получим весьма интересный образ штурмовиков будущего, работающих в условиях города. Похоже, что битва со Скайнет будет выглядеть, кхм, ярко и необычно.

Полезный раздел для тех, кому интересна тема детектирования объектов и компьютерного зрения вообще:



Ссылки для тех, кому показалась интересной как сама тема одежды, так и алгоритмы распознования, используемые в ML:

  1. Еще о хардварном взломе: Американец Мак Пирс создал толстовку со встроенными в капюшон светодиодами, которые «слепят» камеры с функцией ночного видения.
  2. Почему именно Yolo часто используется при распозновании видео. Ответ: отличноее соотношение скорость/качество
  3. Небольшой переведенный гайд о том, как обучить Yolo на пользовательском наборе данных 
  4. Поскольку у Yolo несколько модификаций, то вот отличное сравнение производительности моделей обнаружения объектов YOLO v5, v6 и v7
  5. Великолепный кейс применения Yolo для нахождения парковочного место за 5 секунд


Если вас интересует компьютерное зрение вообще и вы только начинаете, то крайне рекомедую следующие материалы:



На кого подписаться на Хабре: