kucev Apr 27 2022 at 11:33

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

7 min

5.9K

Data Mining*Big Data*Machine learning*Artificial IntelligenceNatural Language Processing*

Translation

Comments 3

SnakeSolid Apr 27 2022 at 17:21

То есть смещение по полу осталось, только теперь модель больше ошибается по мужчинам чем по женщинам и теперь это считается нормальным. Сравнивая ошибки до и после видно, что ошибка по женщинам была в два раза больше, чем по мужчинам, и это была ужасная дискриминация. Когда ошибка по мужчинам стала в два раза больше, чем по женщинам, то это стало хорошим результатом. Понятно, что за счет увеличения объема данных ошибка снизилась, но диспропорция, с которой изначально боролись, осталась.

Остается вопрос в целесообразности такого подхода. Если, условно, мужчины являются основными клиентами данной модели, то они почти не заметят улучшения и с большей вероятностью уйдут к конкуренту. В то время как женщины хоть и заметят изменения, но они могут представлять лишь небольшую долю клиентов. Что будет когда коренной американец пожалуется, что его племя данная модель дескриминирует, только у них имена будут вроде "дикий бык", "черный конь", "крепкий дуб", под них тоже будут подгонять датасет?

vassabi Apr 27 2022 at 18:05

вариант "а давайте дополним модель данными для выравнивания" - для случаев почти равных классов (Ж - М) это отлично.

А что делать с например рыжими (когда "6% от популяции" считается высоким количеством) ? Чем их дополнять?

Thero May 1 2022 at 02:51

так вроде как достаточно усложнить разметку данных чтобы нейронка когда учится на данных могла учитывать это она сейчас рыжего мальчика видит или конопатую девочку, увы научиться распознавать такие ошибки и определять какие маркировки необходимо добавить это проблема для которой у нас всегда будет не хватать квалифицированных специалистов.. мы это ещё в научных исследованиях заметили. люди не очень хорошо работают с данными. существенный прогресс будет когда мы научим нейросеть предсказывать аномальные перекосы в данных и давать рекомендации по улучшению датасета.

Show the best of all time