MIT удалил датасет Tiny Images из-за оскорбительных терминов / Хабр

Примеры изображений, классифицированных как «ниггер»

После критики коллег создатели набора данных Tiny Images (80 млн изображений 32×32 пикселей) извинились и удалили датасет из открытого доступа.

Разработчики из Массачусетского технологического института и Нью-Йоркского университета убрали коллекцию в офлайн и попросили других исследователей воздержаться от использования набора данных и удалить любые существующие копии.

Новость была опубликована в понедельник в письме профессоров Массачусетского технологического института Билла Фримена и Антонио Торральбы, а также профессора Нью-Йоркского университета Роба Фергюса на сайте Лаборатории информатики и искусственного интеллекта МТИ.

Датасет Tiny Images создан в 2006 году и содержит фотографии, автоматические вырезанные из выдачи поиска по изображениям поисковых систем. Оказалось, что он содержит целый ряд расистских, сексистских и других оскорбительных ярлыков (автоматически подобраны семантической системой WordNet). Например, почти 2000 изображений помечено словом «ниггер», есть метки «подозреваемый в изнасиловании» и «растлитель малолетних».

Количество картинок с неприличными классификаторами

Набор данных также содержал порнографический контент, в том числе фотографии, сделанные под женскими юбками. Присутствуют изображения половых органов с жаргонными терминами, изображения некоторых женщин помечены как «шлюхи», применяются недопустимые в современном обществе термины для чернокожих и азиатов.

Скриншот набора данных до того, как он был переведен в автономный режим на этой неделе. Он показывает некоторые примеры наборов данных для ярлыка «шлюха», который мы пикселизированы ради приличия. Изображения варьируются от снимка головы женщины и матери, держащей своего ребёнка, до порноактрис и женщины в бикини

Создатели набора данных в своё оправдание заявили, что датасет слишком велик, а изображения 32×32 слишком малы, что затрудняет визуальный контроль полного содержимого набора данных. По данным Google Scholar, 80 миллионов крошечных изображений цитируются более чем в 1700 научных работах.

Три профессора сказали, что недостатки набора данных были доведены до их сведения в аудиторской работе, опубликованной в конце прошлого месяца аспирантом Дублинского университета Абебой Бирхейн (Abeba Birhane) и аспирантом Университета Карнеги-Меллона Винаем Прабху (Vinay Uday Prabhu). Авторы говорят, что их оценка — это первая известная критика 80 миллионов крошечных изображений.

Авторы статьи и создатели набора 80 миллионов крошечных изображений сходятся во мнении, что часть проблемы исходит из автоматизированного сбора данных и автоматического подбора меток из набора данных WordNet для семантической иерархии.

В статье делается вывод о том, что крупномасштабные наборы данных изображений подрывают конфиденциальность и могут оказывать непропорционально негативное воздействие на женщин, расовые и этнические меньшинства и миноритарные общины.

Бирхейн и Прабху утверждают, что сообщество компьютерного зрения должно больше внимания уделить этическому использованию крупномасштабных наборов данных изображений сейчас, отчасти из-за растущей доступности инструментов скрапинга изображений и технологий обратного поиска изображений. Анализ крупномасштабных наборов данных изображений показывает, что это не просто вопрос данных, но культуры в академических кругах и индустрии, которая позволяет создавать крупномасштабные наборы данных без согласия участников «под видом анонимизации».

Для соблюдения этических принципов авторы научной работы предлагают:

Размытие лиц людей в наборах данных
Не использовать лицензионные материалы Creative Commons, поскольку эта лицензия описывает только вопросы авторского права, но не приватности. Она никак не учитывает согласие лица на использование его изображений для обучения нейросети, поэтому наличие лицензии Creative Commons часто интерпретируется как free for all, consent-included
Собирать изображения с чёткого согласия участников
Включить карту аудита набора данных с крупномасштабными наборами данных изображений, по типу модельных карт, используемых Google AI, и таблиц данных для наборов данных, предложенных Microsoft Research

Оскорбительные метки обнаружены также в наборе данных ImageNet, который считается самым популярным датасетом в данной области. Набор данных ImageNet был представлен на выставке CVPR в 2009 году и считается самым важным для развития компьютерного зрения и машинного обучения. В то время как некоторые из самых больших наборов данных ранее насчитывали десятки тысяч изображений, ImageNet включает 14 197 122 изображений, разбитых на 21 841 категорию. Масштабное распознавание изображений ImageNet проходило с 2010 по 2017 год и привело к запуску целого ряда стартапов. По данным Google Scholar, датасет ImageNet цитировался почти 17 тыс. раз.

Создатели набора данных ImageNet обнаружили, что 1593 из 2832 категорий людей в наборе данных содержат потенциально оскорбительные ярлыки, которые, по их словам, они планируют удалить.

См. также: «Язык программирования Go тоже очищают от „расистских“ терминов»