EthicAI 26 мар 2021 в 18:08

Дискриминация в алгоритмах ML существует — и нет, это не либеральные сказки

4 мин

5.3K

Accessibility*Big Data*Искусственный интеллектМашинное обучение*

Из песочницы

-13

Комментарии 30

shuhray 26 мар 2021 в 18:29

Допустим, негр пишет «Мазафака!», а сказать хочет «Добрый день!»

НЛО прилетело и опубликовало эту надпись здесь

xamdeath 29 мар 2021 в 18:38

Но алгоритм не может знать кто это пишет, если это просто текст без доп. информации о написавшем. Так что алгоритм, собственно, прав.

НЛО прилетело и опубликовало эту надпись здесь

JohnDidact 1 апр 2021 в 17:20

А разница разве есть?)

vikarti 13 апр 2021 в 06:24

Почему сделан вывод что они ложные?
Потом что по определению не могут же у негров быть больше этот показатель?
Хотя реально настоящая связь может быть может например с проживанием в определенных местах или с доходом, или какими то особенностями воспитания в конкретной субкультуре.

Пока что большинство таких примеров выглядит что если система показывает правду — тем хуже для правды.
А в меньшинстве примеров (тот же рак из статьи или там распознавание лиц) — вроде как дело что обучающие базы подобраны так и проблема набрать более нормальные (ну или не думали что это надо учитывать тоже). Особенно если систему делали в стране где ну не завозили активно рабов других рас/свое население другой расы.

Еще есть примеры когда тупо не подумали что система — для другого контекста — например — особенности в плане пола (внешний вид не соответствует генетическому полу, или, что хуже — не соответствует частично), автоматическая система которая знает только 2 пола — будет тупить, при этом тут даже пополнение обучающей базы все только запутает, тут разве что вводить понятие "пол для цели X"(если нам надо опознать визуально — это М или Ж — это одно, если нам надо делать операцию какую то этому человеку — это совсем другое, и наверно надо учитывать генетический пол а не то что в документах/как выглядит)

lrrr11 26 мар 2021 в 18:45

бгг, помню как на одном буржуйском сайте борцуны за права негров порвались от задачи "полицейский наряд решает, кого из подозреваемых преследовать — негра или белого. Как они должны поступить при прочих равных, если известно что негры совершают преступления в среднем гораздо чаще белых?".

А как решит эту задачу анонимный автор (или авторка?) статьи?

unibasil 27 мар 2021 в 06:18

Видимо, сошлётся на предвзятость и bias'ы в постановке задачи. Ну не может же быть такого, чтобы негры совершали преступления в среднем гораздо чаще белых!

vikarti 13 апр 2021 в 06:30

Есть еще вариант: они совершают чаще и это таки факт (в смысле это не статистика кривая а (допустим) именно так и есть) известно но у нас задача честно интегрировать негров в общество (пусть даже ценой снижения эффективности полиции и общество с этим — согласно) то… монетку подбросить?
Та же примерно логика по которой есть понятие погашения судимости. С одной стороны — даже отсидевший преступник может создать проблемы в приличном обществе, с другой стороны — считается же что он может исправится и права у него — тоже есть, и не надо всем подряд знать что он был преступником и это не должно вызывать последствия. Пусть это не со всеми видами преступлений и не для всех организаций работает но все же.

Politura 26 мар 2021 в 18:49

А ведь на хабре вместо накидывания кликбейтных дискриминаций можно было-бы написать техническую статью про то, что данные в обучающей выборке могут быть несбалансированными, к чему это может привести и о методах, как с этим люди борятся.
Например, на каггле есть задачка про определение фрода с кредитными картами, там эти данные очень несбалансированны: всего 0.17% воровства по отношению к обычным транзакциям. И вместо заламывания ручек на тему дискриминации и воплей о том, что надо-бы привлечь общественность к решению этого вопроса там от разных людей полно статей, как жеж иметь дело с такими данными и сравнение вариантов решений, например вот: www.kaggle.com/dktalaicha/credit-card-fraud-detection-using-smote-adasyn параграф называется Class Imbalance

EthicAI 7 апр 2021 в 19:28

Благодарим за комментарий! Обязательно изучим эту задачу. Наша тематика, действительно, тесно связана с социальными проблемами, и мы планируем фокусироваться и на технических причинах Bias'а в ИИ. В наших будущих статьях мы поднимем тему несбалансированности данных именно в этом контексте :)

kraidiky 26 мар 2021 в 18:57

почему его алгоритмы не могут быть такими же необъективными и проявлять такую же несправедливость?

Сейчас на глазах у изумлённой публики автор этого наброса сумеет дать не зависящее от культурных и политических взглядов определение справедливости и сразу же войдёт в историю. :)))

EthicAI 7 апр 2021 в 19:20

Спасибо за комментарий! Существует много вариантов определения того, какая модель машинного обучения считается справедливой. Например, кто-то (https://arxiv.org/pdf/1710.03184.pdf) говорит, что модель справедлива, если она не рассматривает “чувствительные” атрибуты (раса, гендер и т.д); кто-то (https://arxiv.org/abs/1104.3913) — что в случае, если вероятность благоприятного исхода для людей со схожими параметрами (например, уровень образования и достатка) одинакова, или хотя бы близка. Или же в случае, если ложноположительные и ложноотрицательные показатели одинаковы для каждой группы. (https://arxiv.org/abs/1610.02413) Каждое из определений имеет право на существование, и в будущем мы обязательно разберем некоторые из них :) Те примеры, которые привели мы, не считаются справедливыми ни в одном из данных вариантов определения справедливости. Если вы знаете про формальные способы определения справедливости, которые бы «посчитали» наши примеры непредвзятыми — будем очень благодарны, если поделитесь)

iliasm 26 мар 2021 в 18:59

машинное обучение — обучение на данных, разве нет? данные дискриминирующие, выходит.
получается тогда и данные дискриминирующие.
белых больше в выборке? напомню что пока в США белых таки больше в массе.
твиты более оскорбительны? ну да, кому-то можно сказать "ниггер", а кому-то только "n-word" (пока) можно, если обучать на выборке где считать это слово адски уничижительным и грубым, то получится что вокруг него будут определённые обороты, которые свойственны чернокожим, соответственно модель обучится. но вообще поиск такой штуки как "оскорбительный" само по себе смешное занятие

давайте не будем доводить до того что коммитеты добра будут нам утверждать ML модельки, ладно?

EthicAI 7 апр 2021 в 19:32

Спасибо за комментарий! ML модельки все-таки влияют на реальных людей, и их популярность (широта использования) все-таки стремительно растет. Возможно, именно поэтому «Комитеты добра», на самом деле, уже утверждают модели в некоторых компаниях, и рисерч в данной сфере идет довольно успешно :)

kogemrka 26 мар 2021 в 19:11

твиты, написанные афроамериканцами, в среднем отмечены алгоритмами ИИ как оскорбительные (хотя на самом деле таковыми не являются, показатель false positive) в 1,5 раза чаще, чем такие же твиты белых.

COMPAS, система искусственного интеллекта, используемая для прогнозирования вероятности совершения преступником другого преступления, оказалась явно настроенной против афроамериканцев. Получилось так, что у афроамериканцев было вдвое больше ложных предсказаний рецидивизма, чем у белых американцев.

Исследование Тимнит Гебру и Джой Буоламвини показало

Зачем вы подчернули и выделили жирным какие-то утверждения не приведя ссылок непосредственно на исследования? Вы в интернете пишете, ссылки вставлять здесь легко и приятно.

Впрочем, писали бы вы на бумаге, к таким утверждениям всё равно требовалось бы ставить сноски.

EthicAI 7 апр 2021 в 19:37

Спасибо за то, что указали на наш недочёт! В наших следующих статьях мы обязательно будем напрямую указывать ссылки на источники) Ниже прикрепляем ресурсы, из которых взяли примеры в этой статье:
1. link.springer.com/chapter/10.1007%2F978-3-030-63119-2_24 (в медицине)
2. news.cornell.edu/stories/2019/08/study-finds-racial-bias-tweets-flagged-hate-speech (про Твиттер)
3. advances.sciencemag.org/content/4/1/eaao5580 (рецидивизм)
4. proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf (Буоламвини и facial recognintion)

НЛО прилетело и опубликовало эту надпись здесь

EthicAI 7 апр 2021 в 19:39

Отличное замечание! В книге, откуда мы брали данную информацию, была предложена модель, которая (благодаря некоторым коррекциям + работе с данными) стала эффективной и для темнокожих, и для белокожих :) (https://link.springer.com/chapter/10.1007%2F978-3-030-63119-2_24)

vikarti 13 апр 2021 в 06:35

И получим проблемы:

твиты — нужно либо заранее указывать расу прямо при регистрации либо ее определять… еще одной моделью. и как быть если это белый приколист делает вид что негр? -:)
рак — хорошо, что с мулатами делать? а если мы не знаем заранее что это мулаты? и тут ведь не поможет спросить кем себя он считает

НЛО прилетело и опубликовало эту надпись здесь

PleaseKING 27 мар 2021 в 07:50

На самом деле, проблема data bias действительно существует, просто ее надо иллюстрировать не на политических, а на технических примерах. Вот, например, очень неплохая статья на эту тему.

А привнесение политического аспекта немедленно убивает дискуссию и здравый смысл.

EthicAI 7 апр 2021 в 19:41

Спасибо большое за рекомендацию! Мы уже ознакомились с данной статьёй и обязательно приведем технические примеры в будущем)

Nehc 27 мар 2021 в 11:08

Самое интересное, что вот такие вот статьи, которые с натяжкой еще можно отнести к относительно технически-грамотным в обычных СМИ трансформируются в «Нейронные сети отражают заблуждения их разработчиков», и далее делается вывод, что если программист «не толерантен к цветным», то он дескать и нейросеть научит! От несбалансированности данных незаметно переходим на разработчиков-расистов…

Matshishkapeu 27 мар 2021 в 17:38

Тащемта не совсем понятен бомбит у читателей. Возможно, от незнания реалий светлого мира, где написанные на коленке классификаторы, обученные на исторических данных когда у негров ещё были отдельные туалеты — эти классификаторы используются при принятии судебных решений (оценка риска рецедива). Статья, конечно, не особо впечатляет, интересующимся могу посоветовать книгу 'Weapons of math destruction' by Cathy O'Neil. Там и примеров много, и написана человеком понимающим в данных с примерами и так далее. Есть в русском переводе ( 'Убийственнын большие данные') и находится на пиратских сайтах.

logran 28 мар 2021 в 10:54

А что тут понимать то, если в статье проблемы не в нейронках, а в предвзятом взгляде автора?
Тезис: модель не распознает рак у черных => алгоритм не эффективен.
В реальности: скорее всего авторы учили его на данных, полученных от какой-то больницы. И на пациентах этой больницы алгоритм показывает необходимую эффективность => с ним всё в порядке. Хотите ту же эффективность на весь мир — подсуньте алгоритму на обучение данные со всего мира, но сам алгоритм менять не надо, проблема не в нём, а в людях.

Тезис: нейронка считает твиты черных ложно оскорбительными => нейронка кривая и расист.
В реальности: баг прошивки мозга некоторых людей, приводящий к ситуации, когда одно и то же высказывание является и оскорбительным и нет, в зависимости от цвета кожи говорящего. Учитывая, что смысл высказывания от этого не меняется — это дибилизм, имхо, и чинить тут надо людей, а не нейронку и данные.
Нейронке на вход подали инфу, что в условных 95% случаев нигер — оскорбление, она его везде таковым и пометит. Ибо это анализирующая текст нейронка, а не анализирующая цвет кожи. Ей вообще пофигу кто автор поста — она об этом ничего не знает и знать не должна. Так что чините людей, неприемлющих объективные данные в силу багов восприятия, а не рабочий алгоритм.

И дальше по тексту примеры в том же духе.

Да, хватает ситуаций с проблемными обучающими выборками и с косячными моделями. Вот только это точно не про описанное в посте.

egretos 1 апр 2021 в 17:20

Круто было бы дополнить статью материалами, где ИИ использует равномерное разнообразие разных групп. Ведь исходя из статьи — дискриминация уже есть на уровне входных данных (от человека). Будет ли такая же дискриминация, если скормить ИИ равномерно разнообразные данные?

EthicAI 7 апр 2021 в 19:51

Спасибо большое за комментарий! Если кратко, то такой же дискриминации не будет, но если модель была изначально обучена на не очень разнообразных данных, то какая-то дискриминация все же будет даже при идеально сбалансированных данных. Если вам интересен этот вопрос в контексте распознавания лиц, здесь он довольно наглядно рассмотрен :) Вот еще ссылка на саму научную работу, по которой сделана страничка: proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf
В будущем мы обязательно затронем эту тему подробнее!

Ka_Wabanga 1 апр 2021 в 17:20

Это не проблема в ML, а проблема в данных — модели только инструмент.

Очень часто вспоминаю фразу — «Говно на входе — говно на выходе».

А сбор данных, валидация, чистка это отдельный огромный мир.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Дискриминация в алгоритмах ML существует — и нет, это не либеральные сказки

Комментарии 30

Публикации

Истории