Комментарии 20
Если бы мы работали с этими данными и дальше, мы бы задумались о возможности исключения признака пола, раз уж мы видим по нему сдвиг.
Очень забавная ситуация. У людей существует половой диморфизм — мужчины и женщины имеют разную производительность труда в разных отраслях. Сеть от Амазона просто продемонстрировала это наглядно. Но выданный ей результат показался непримиримым с точки зрения не относящихся к науке факторов.
Там образом статья про непредвзятый отбор проиллюстрирована отбором предвзятым.
Обратите внимание, что речь шла не про работу, требующую выдающейся физической силы, а про «software developer jobs and other technical posts»
Для того, чтоб стать лауреатом филдсовской премии — физическая сила не нужна совершенно. Но и там мы видим статистически значимые отклонения в пользу одного из полов.
А вы можете однозначно указать на половой диморфизм как на причину этих статистически значимых отклонений? А может ли это быть следствием социализации, напр. увлечение девочек математикой может в среднем меньше поощряться, начиная от бабушек и заканчивая обществом в целом («зачем тебе это, учись лучше борщ варить»)?
Дальше вы либо придумываете, как вам учесть все эти факторы в своей статистике, либо разводите ручками и говорите — «а мы не знаем». Если вы учли и неравномерность осталась — это уже новость, но вы тоже не можете быть уверены что а) учли всё, б) учли всё правильно. Так что либо вы ставите чистый эксперимент, в котором представители обоих базовых классов находятся изначально в одинаковой среде (с одинаковым «одобрением» занятия той или иной деятельностью), либо споры неизбежно перейдут в кидание какашками по поводу методик).
ИМХО, мне видится более вероятным, что в большой и сложной цепочке выборов и решений, которая привела к медали Филдса, очень велико влияние среды, в которой эти решения принимаются.
Дальше вы либо придумываете, как вам учесть все эти факторы в своей статистике, либо разводите ручками и говорите — «а мы не знаем». Если вы учли и неравномерность осталась — это уже новость, но вы тоже не можете быть уверены что а) учли всё, б) учли всё правильно. Так что либо вы ставите чистый эксперимент, в котором представители обоих базовых классов находятся изначально в одинаковой среде (с одинаковым «одобрением» занятия той или иной деятельностью), либо споры неизбежно перейдут в кидание какашками по поводу методик).
ИМХО, мне видится более вероятным, что в большой и сложной цепочке выборов и решений, которая привела к медали Филдса, очень велико влияние среды, в которой эти решения принимаются.
Дальше вы либо придумываете, как вам учесть все эти факторы в своей статистике
Вы неправильно понимаете статистику как методику — доказываете, что видимая разница в количестве того или иного пола объясняется социализацией и прочее…
А это совершенно не важно, в контексте обсуждаемого вопроса. Статистика — показывает что разница есть, а не объясняет откуда она взялась и что с ней делать.
Причины разницы и что с ней делать — это другой вопрос. Социальный, мировоззренческий, философский.
Понимаете, о чем я? О том, что разница между полами не ошибка алгоритма, а следствие не зависимых от алгоритма факторов (В том числе и различий в социализации, как вы правильно указали)
И что нужно не переделывать алгоритм, а работать с его результатами. Например — организовать курсы для женщин программистов.
Понимаете, о чем я? О том, что разница между полами не ошибка алгоритма, а следствие не зависимых от алгоритма факторов (В том числе и различий в социализации, как вы правильно указали)
И что нужно не переделывать алгоритм, а работать с его результатами. Например — организовать курсы для женщин программистов.
А, с этим я полностью согласен. Алгоритм не может быть «неполиткорректным».
Мне показалось, что тут вы утверждаете о разнице именно как о следствии диморфизма:
У людей существует половой диморфизм — мужчины и женщины имеют разную производительность труда в разных отраслях…
… Для того, чтоб стать лауреатом филдсовской премии — физическая сила не нужна совершенно. Но и там мы видим статистически значимые отклонения в пользу одного из полов.
Вы неправильно понимаете статистику как методику — доказываете, что видимая разница в количестве того или иного пола объясняется социализацией и прочее…
Но подождите, как раз насколько я понимаю, современные исследования — не только социологические, но и медицинские — построены на том, как искусственно сделать выборку условно однородной (возможно неправильный термин), т.е. вводом поправок на различные факторы. Так, медики в некоторых исследованиях, например о влиянии диеты на продолжительность жизни, могут учитывать поправки на материальное положение и тп, чтобы выкопать из данных «чистый» эффект. Это как раз следствие того, что мы не можем (в т.ч. по этическим соображениям) провести полностью контролируемый эксперимент, в котором все испытуемые находятся в одинаковых условиях под влиянием одних и тех же факторов. Или такие методы не являются инструментами статистического анализа?
Очень забавная ситуация. У людей существует половой диморфизм — мужчины и женщины имеют разную производительность труда в разных отраслях. Сеть от Амазона просто продемонстрировала это наглядно. Но выданный ей результат показался непримиримым с точки зрения не относящихся к науке факторов.
Сеть от Амазона лишь показала, что есть тренд в набранной статистике. Вы утверждаете, что разбираетесь в статистике, но не понимаете, чем корелляция отличается от причинности и как это выявлять.
Понимаете, о чем я? О том, что разница между полами не ошибка алгоритма, а следствие не зависимых от алгоритма факторов (В том числе и различий в социализации, как вы правильно указали)
Вообще-то статья именно об этом. «Независимые от алгоритма факторы» — это и есть смещения, которые нужно устранять в тот момент, когдя их негативное влияние проявилось (а лучше до этого)
И что нужно не переделывать алгоритм, а работать с его результатами. Например — организовать курсы для женщин программистов.
Это ваше личное отношение к конкретному гендерному вопросу. А что делать с моделью, работающей с датчиками на ядерной электростанции? Тоже работать с результатами? Думаю, будет поздновато
А что делать с моделью, работающей с датчиками на ядерной электростанции? Тоже работать с результатами?
Именно. Работа с результатом — это срабатывание защиты, например. Тогда как изменение модели, чтоб она больше не выдавала «неугодных данных» — приведет к нарастанию проблемы.
Не думаю, что это выдавание «неугодных данных» в случае с Амазоном. Половой диморфизм в точных науках не доказан в чистом рандомизированном эксперименте. По этому поводу есть лишь множество противоречащих друг другу публикакаций и исследований. Можете найти подтверждение любой точки зрения.
Количество лауреатов филдовской премии — тоже очень плохая выборка для установления причинности. Сколько там русских? Не так много. Значит ли это, что алгоритм должен предпочесть француза русскому? Вряд ли
А вот то, что Мария Кюри, к примеру, прошла огонь и воду и медные трубы (даже заключала брак по расчету) просто, чтобы иметь доступ к лаборатории как женщина — это факт. И это черта целых эпох
Поэтому мы не можем заключать, что «мужчина -> лучший специалист в точных науках», значит алгоритм не должен учитывать эту размерность при подборе лучшего специалиста.
Я сам работаю в науке, и могу сказать, что большинство моих женщин коллег дают фору многим мужикам. Можно ли на основе этих данных сказать, что женщина — лучший специалист? Тоже вряд ли
Количество лауреатов филдовской премии — тоже очень плохая выборка для установления причинности. Сколько там русских? Не так много. Значит ли это, что алгоритм должен предпочесть француза русскому? Вряд ли
А вот то, что Мария Кюри, к примеру, прошла огонь и воду и медные трубы (даже заключала брак по расчету) просто, чтобы иметь доступ к лаборатории как женщина — это факт. И это черта целых эпох
Поэтому мы не можем заключать, что «мужчина -> лучший специалист в точных науках», значит алгоритм не должен учитывать эту размерность при подборе лучшего специалиста.
Я сам работаю в науке, и могу сказать, что большинство моих женщин коллег дают фору многим мужикам. Можно ли на основе этих данных сказать, что женщина — лучший специалист? Тоже вряд ли
Насчет полового диморфизма и «не-физических» видов работы.
Надеюсь, никто не станет возражать, что гормонональный баланс у мужчин и женщин разный. А гормоны, в свою очередь, влияют на активность мозга (по крайней мере, некоторых его отделов). Наверное, тут правильнее говорить о «распределении» гормональной активности, которая у мужчин обеспечивает сдвиг в сторону рационально-активно-волевого образа действий, а у женщин — в сторону эмоционально-пассивно-компромиссного. Т.к. речь идет о распределениях, то очевидно, что всегда на их «хвостах» можно найти мужчин с «женским» психотипом, и женщин — с «мужским».
Соответственно, если работа требует именно мужского психотипа (с доминированием рациональности), то там по совершенно объективным причинам будут доминировать мужчины. И наоборот. Следовательно, работодатель будет стоять перед выбором — в зависимости от задачи набрать больше носителей «мужского»/«женского» психотипа (обоих полов), либо обеспечить «гендерное равенство» и получить проблемы с производительностью труда, межличностной напряженностью и т.п. (что, впрочем, вполне возможно и в «чисто мужском» коллективе).
Надеюсь, никто не станет возражать, что гормонональный баланс у мужчин и женщин разный. А гормоны, в свою очередь, влияют на активность мозга (по крайней мере, некоторых его отделов). Наверное, тут правильнее говорить о «распределении» гормональной активности, которая у мужчин обеспечивает сдвиг в сторону рационально-активно-волевого образа действий, а у женщин — в сторону эмоционально-пассивно-компромиссного. Т.к. речь идет о распределениях, то очевидно, что всегда на их «хвостах» можно найти мужчин с «женским» психотипом, и женщин — с «мужским».
Соответственно, если работа требует именно мужского психотипа (с доминированием рациональности), то там по совершенно объективным причинам будут доминировать мужчины. И наоборот. Следовательно, работодатель будет стоять перед выбором — в зависимости от задачи набрать больше носителей «мужского»/«женского» психотипа (обоих полов), либо обеспечить «гендерное равенство» и получить проблемы с производительностью труда, межличностной напряженностью и т.п. (что, впрочем, вполне возможно и в «чисто мужском» коллективе).
А есть где-то подтверждение этой теории?
Для начала — можно погуглить о влиянии гормонов на психику и про тестостерон с эстрогенами.
Понятно, что гормоны влияют. Я про вот эту часть:
о «распределении» гормональной активности, которая у мужчин обеспечивает сдвиг в сторону рационально-активно-волевого образа действий
Вот пара цитат из этой статьи (сохраненная Гуглом копия):
Ну и очевидное: у мужчин в среднем выработка тестостерона выше, чем в среднем у женщин. Но среднее — означает, что мы имеем дело с распределением величины, которое характеризуется какой-то формой (например, гауссоида). Поэтому, имея дело с конкретным индивидуумом, надо смотреть не на статистику, а на человека.
Еще вот неплохая статья («Влияние гормонов на поведение»).
Тестостерон — гормон мужественности и полового влечения. Тестостерон запускает мужские формы полового поведения: наиболее явные отличия М от Ж, такие как агрессивность, склонность к риску, доминантность, энергичность, самоуверенность, нетерпеливость, желание соревноваться
Эстрогены — женские половые гормоны. Влияние на характер: страхи, жалость, сопереживание, привязанность к младенцам, плакса.
Ну и очевидное: у мужчин в среднем выработка тестостерона выше, чем в среднем у женщин. Но среднее — означает, что мы имеем дело с распределением величины, которое характеризуется какой-то формой (например, гауссоида). Поэтому, имея дело с конкретным индивидуумом, надо смотреть не на статистику, а на человека.
Еще вот неплохая статья («Влияние гормонов на поведение»).
Я в этой истории с амазоном вот чего не понимаю. Алгоритм оперирует теми данными, которые в него заложили. Если исследователь предполагает, что какие-то факторы не имеют значения (рост, цвет глаз) или не должны учитываться по легальным причинам (раса, пол), зачем их вообще туда вносили? Или пол там автоматически выявился из других данных?
скорее всего нейросети вслепую скормили большой массив данных с анонимизированными данными сотрудников, и одна из размерностей была — пол. В этом и есть суть так называемого feature engineering — часто нужно корректировать модель еще до обучения (внимательно изучив данные), потому что ты понимаешь, что она может выхватить нерелевантный (в лучшем случае) тренд, исходя просто из ее архитектуры
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Рыцари несправедливости. Дата-сайнтисты против смещения данных