EthicAI 12 апр 2021 в 21:50

Главная причина дискриминации в ML

3 мин

Big Data*Машинное обучение*Научно-популярноеИскусственный интеллект

Recovery Mode

-6

Комментарии 11

gleb_l 12 апр 2021 в 23:01

Дилемма этики в ИИ очень наглядно показывает, что основа политкорректности — ханжество государственного уровня.

ИИ априори не может иметь гендерных, расовых или еще каких-либо предрассудков, поскольку он искусственный — ему не рассказывали про то, кто виноват, если «в кране нет воды», он не воспитывался в домострое с синяками у мамы, не читал новости про убер-таксистов, размазывающих по асфальту выходящих из трамвая пешеходов, не впитывал лексику и повадки беззубых жителей 101 километра. ИИ оперирует лишь полуразмеченным корпусом данных, в которых он находит закономерности, не зная, в отличие от человека, политкорректно или нет называется тот или иной столбец данных, и политкорректен ли будет вероятностный вывод класса из набора свойств.

Но, поскольку ИИ делает выводы, подобные нынешним выводам сообщества людей (частным до сих пор, или публичным, не запрещенным еще в недавнем прошлом) — это означает, что эти выводы — более объективны, чем скоррректированные современной моралью. То есть, сходство выводов беспристрастного ИИ и внутреннего классификатора человека (даже искаженного воспитанием и средой) доказывает то, что статистическая разница все-таки существует. Независимо от того, запрещено или разрешено ее признавать публично.

В современной политкорректности есть подмена фундаментальных понятий и перекладывание ответственности с общества/среды на конкретного индивидуума-декларатора. Почему нельзя сказать, что средний уровень зарплаты афроамериканцев меньше, чем белых? Или женщин, чем мужчин? Почему мы не можем вывести собирательный портрет типичного преступника, если он мигрант, хотя и то, и другое, и третье подтверждается статистически, но в то же время можем сказать, что типичный француз — прижимист, немец — расчетлив, грузин — гостеприимен, японец — сдержан, а русский — хмур?

Потому, что за зарплаты, образование и преступность отвечает само государство — своей текущей и прошлой социальной политикой, а за национальные особенности — что-то гораздо более древнее, что к текущей власти отношения не имеет. И вместо того, чтобы обеспечить людям из разных кластеров равные возможности (сработает не сразу — нужно несколько поколений !) — просто запрещают вслух признавать очевидные даже ИИ различия — поскольку такое признание на самом деле не столько оскорбляет принадлежащего к кластеру человека, сколько ставит вопрос о *причинах* этой принадлежности. А постановка этого вопроса вызывает exception в современной системе команд, как недопустимое значение указателя — так как указывает он на тех, на кого указывать нельзя.

Politura 13 апр 2021 в 02:28

Угу, этот самый ИИ делает свои выводы на основе тех данных, что ему подсунули для обучения. И вот эти данные могут быть сильно неоднородными, в этом случае модель обученная на таких данных с одними объектами будует работать хорошо, а с другими плохо. Например, если вы попытаетесь обучить какую-то систему определения лиц на фотке отдав в ей в качестве обучающей выборки исключительно фотографии белых, то после обучения на фотографиях чернокожих она будет ошибаться намного чаще, чем на фотографиях белокожих.
Но разумеется в самом машинном обучении накакой дескриминации, или там расизма нет. Есть только человеческие ошибки в подготовке данных для этого самого обучения, которые могут приводить в том числе и к дискриминациями. Например, в статье дана ссылка www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm по ней некие исследователи изучали какую-то систему, которая оценивала преступников давая им 3 параметра: риск рецидива, риск опасности и еще чего-то там. Эти исследователи якобы нашли, что система ошибочно давала чернокожим высокий риск рецидива гораздо чаще, чем белым: 45% ошибочно высокий риск рецидива чернокожим и 23% ошибочно высокий риск рецидива белым. Я не знаю, так ли это (впервые слышу о propublica.org), но если они правы, то значит обучающая выборка была кривая.

Dair_Targ 13 апр 2021 в 02:46

Так а в чём проблема? Допустим есть система, описываемая функцией f(x). На выходе получаются какие-то результаты — ну там американские негры преступники или там русские водку литрами пьют, а хохлы сало едят как не в себя.

И дальше есть выводы, которые должны получиться: распределение преступлений по оттенку кожи — константа, русские пьют на равне с арабами из Мекки, а хохлы употребляют сала столько же на человека, сколько и евреи на Хануку. Опишем разницу между результатом f и тем, что должно получиться, как g(y).

Ну и давайте на выходе скрестим эти системы — получим g(f(x)). Подозреваю, что при должной проработке функции g от функции f вообще можно будет отказаться за ненадобностью.

SinsI 13 апр 2021 в 06:23

это означает, что эти выводы — более объективны, чем скоррректированные современной моралью.

Проблема в том, что существуют парадоксы Симпсона — если нет правильного учёта всех влияющих факторов и корректного разбиения на однородные группы, то обобщённые статистические данные часто врут как сивый мерин, выдавая совершенно неправильные результаты, могущие быть прямо противоположными действительности.

evadesad 13 апр 2021 в 17:21

ИИ учится на данных, которые ему предлагаются. Вот и Амазон пытался сделать идеальный ИИ хайринговый инструмент, научив их «хорошим кандидатам» и «плохим кандидатам».
ИИ научился на выданных ему данных, и отсеял всех кандидатов, которые ходили в женские школы или колледжи, были капитанами женских спортивных команд и вообще имели косвенные указания на женский пол в резюме.
slate.com/business/2018/10/amazon-artificial-intelligence-hiring-discrimination-women.html
Значит ли это, что женщинам объективно не место в Амазоне, если только не подключить современную мораль?

А ещё вот про непредвзятость, объективность, мораль и здравый смысл:
«he program also decided that basic tech skills, like the ability to write code, which popped up on all sorts of resumes, weren’t all that important, but grew to like candidates who littered their resumes with macho verbs such as “executed” and “captured.»

Можно ли считать, что объективно программисту не важно умение писать код, а гораздо важнее быть executed или там captured?

vyo 13 апр 2021 в 05:22

ИИ оперирует тем, что ему скормили. Все претензии — к входным данным и их правдивости (качеству датасета).

На конкретном примере про негров-рецидивистов: алгоритм пришёл к выводу, что в среднем негры к нему более склонны. Если это и правда так и не ошибка во входных данных — что тут поделать (в рамках деятельности разработчиков ИИ), такова жизнь. На основе данных сделан (статистически обоснованный) вывод — конкретный цвет кожи положительно коррелирует с вероятностью рецидива.
Не нравится результат — зачем вы включили цвет кожи вообще во входные данные тогда? Вы хотели поиска корреляций с ним (а иначе зачем цвет кожи вообще упоминать было?) — вы их получили. И нечего обижаться на вероятностный вывод.
И читать такой вероятностный результат как бинарный нельзя. Утрируя, если из 1000 белых преступников один рецидивист, а из 1000 чёрных — двое, это не трактуется же как "каждый белый преступник рецидивист на 0,1%, а каждый чёрный — на 0,2%". Рецидивисты квантованные, всё-таки.

Politura 13 апр 2021 в 07:02

алгоритм пришёл к выводу, что в среднем негры к нему более склонны.

Нет, там идет речь про false positive rate, то есть о том, как часто алгоритм обвинил кого-то ошибочно.
То есть система пометила, например, 1000 белых как тех, кто с высокой вероятностью станет рецидивистом.
Но ошиблась и реально рецидивистами из 1000 стало 770 человек, а 230 человек не стали, то есть false positive rate = 23%.
А про негров, из тех-же 1000 стало только 550 рецидивистами, а 450 человек не стало, или false positive rate 45%. Такая вот двукратная разница говорит о том, что что-то не так с моделью. Ну если это на самом деле правда.

упд. не, вру, то, что я написал это точность, или precision, а false positive rate это отношение тех, кого ошибочно обвинили в том, что они станут рецидивистами, к общему количеству всех те, кто так и не стал рецидивистом.
Или если вернуться к цифрам, 1000 белых реально не стали рецидивистами, но система сказала, что из них не станут 770, а 230 станут.
А в случае черных, из 1000 реально не ставших рецидивистами стистема сказала что не станут только 550, а 450 станут.
В любом случае есть перекос, когда система на черных врет сильнее, чем на белых и возникнуть он мог из-за перекосов в обучающей выборке. Ну или эти propublica.org что-то намутили в своих данных и выдали желаемое за действительное.

НЛО прилетело и опубликовало эту надпись здесь

AlexTheLost 13 апр 2021 в 10:50

Что за бредовая идея называть использование нерепрезентативной выборки, дискриминацией — термином который относится исключительно к человеку?

Nehc 13 апр 2021 в 11:07

Не, ну подождите… Если некий алгоритм используется для принятия решений в отношении людей (кредитных рисков, прошений об условно-досрочном, принятия на работу и тп.) — то… Какая разница — выборка не репрезентативная или что-то другое? Алгоритм способствует «дискриминации» в сугубо своем «человеческом» смысле.

Справедливости ради: «дискриминацией» в мире нейросетей сетки активно занимаются и в отношении друг друга! )) В популярной нынче архитектуре генеративных сетей (GAN) — дискриминатор гнобит генератор по поводу и без, дабы заставить его выдавать результат не хуже, чем на образце.

Nehc 13 апр 2021 в 11:11

Интересно — почему эту статью минусят? Вроде сдесь вопрос поставлен значительно более непредвзято, чем в прошлый раз. Типа, а может оно и не дискриминация, а вполне себе реальное положение вещей? И комментарии идут довольно интересные (а как по мне — половину статей на хабре стоило опубликовать именно из-за комментариев!). Так за что минуса-то? Или тема настолько болезненная, что о ней и говорить не стоит? Ни с какой стороны…

Зарегистрируйтесь на Хабре, чтобы оставить комментарий