Комментарии 48
алгоритмы не анализируют объективную реальность. Они анализируют тексты, написанные людьми.
А люди, которые свои мысли пишут, где живут? На планете Нибиру? Как раз эта объективная, окружающая их реальность и отражается в их мыслях т.е. в тексте.
Для начала задумаемся о природе этих текстов — кто, когда и зачем их написал. Надеюсь, здесь очевиден перекос в выборке. Большинство текстов пишется белыми людьми. Это значит, что мы толком не учитываем мнение остальных. Большинство новостных текстов пишется про ужасы этого мира — значит, мы толком не учитываем то хорошее, что в нем есть.
Большинство новостных текстов пишется про ужасы этого мира — значит, мы толком не учитываем то хорошее, что в нем есть.
Это вы сами придумали, или взяли где?
Вставлю ИМХО. На русском подавляющая часть новостей, которая встречается мне — именно про негатив. Хабр лучше в этом плане, но в основном так — аварии, политические разборки и кто где не прав. У кого не так — тому везёт )
Я ведь и спрашивал, это субъективное мнение, или результат какого-то анализа? Что у вас и у автора может быть такое субъективное мнение ("везде чернуха одна") я вполне верю. Но это на самом деле мало что меняет. У нас есть для анализа такие тексты, какие есть. Если в мире в текстах больше негатива — надо научиться с этим жить, а не устраивать искусственные перекосы, обучая ИИ непонятно на чем, с целью устранить некий "расизм".
Зачем нам с этим "жить"? Если я захочу устранить влияние какого-то фактора в своём алгоритме (например, не учитывать имена), я вполне могу это сделать.
Это просто программирование и жизненную философию ("искусственные перекосы", "научиться с этим жить") к нему применять не обязательно. Если вы решите, что мой сервис недостаточно хорош, а у конкурента он лучше (который не устранял перекосы и, например, все грузинские рестораны ранжирует ниже итальянских) — ваше право.
Но может оказаться и наоборот. Потому что "мусор на входе — мусор на входе". Обработка данных, что бы убрать часть мусора, применяется всегда.
Внести искусственный перекос вместо того, чтобы понять, откуда взялся естественный, т.е. почему у слова "мексиканский" негативный оттенок? По-моему это тупиковый метод. Т.е. вместо анализа контекста, и попытки понять, почему это так — мы вносим поправки, и пытаемся выровнять то, что исходно не равно.
Этот подход мне напоминает другую историю — вот фейсбук, к примеру, наивно считает, что если я открыл рекламу, то мне интересна тема этой рекламы. И начинает мне подсовывать еще, похожие. Вы видите тут перекос? Я — да. На самом деле я открываю рекламу только тогда, когда считаю ее раздражающей, неприятной, оскорбительной и т.п. — т.е. для того, чтобы пожаловаться. Но им не хватает интеллекта, чтобы понять, что за кликом по ссылке в 100% следует жалоба и бан рекламодателя.
Чтобы убрать мусор — нужно понимать, откуда он берется, и какова его природа. Мне так кажется...
Да не внести перекос, а убрать влияние фактора, который тебе не нужен. Далеко не всегда нужно тратить время для анализа "природы" чего-то лишнего.
Хотя если вы не коммерческий продукт создаёте, а именно исследованиями занимаетесь, тогда вопросов нет — конечно изучайте природу перекосов и предлагайте модели работы с ними. Возможно, пригодится.
Может с нашей стороны океана проблема пока ещё не так очевидна, но видимо совсем скоро нас ждут ровно такие же проблемы.
В Японии получить медицинскую помощь европейцу сложнее, чем азиату, это реальность. В Штатах процент преступлений с участием черных выше, чем белых, это реальность. Итальянская пища нравится большему количеству людей, чем мексиканская, это реальность.
Возможности людей зависят от места рождения, их расы и пола, это тоже реальность.
Все это может быть объективно несправедливым, и со временем возможности выравниваются. Но на данный момент, это реальность.
со временем возможности выравниваютсяОни выравниваются, потому что люди меняют свои взгляды. Мне кажется, вы сами своими словами объясняете, почему важно поменять данные, чтобы завтрашняя реальность стала лучше сегодняшней.
Люди меняют свои взгляды не на пустом месте, этому предшествуют изменившиеся условия. Подменяя данные вы создаете ложные предпосылки, а как известно, из ложных предпосылок нельзя сделать истинные выводы.
Не надо делать вид что забывая о прошлом мы становимся лучше, это не так. И ИИ не станет лучше, если ему надеть розовые очки.
Плюс ко всему, инициатором изменений должен быть человек, а не ИИ. Ведь это для человека должны происходить изменения в мире, а не для ИИ.
От того что ИИ будет жить в ином мире, завтрашняя реальность лучше не станет, она просто все больше и больше будет расходиться с мировосприятием человека, до тех пор, пока не будет признана фантастической и кто-то не вырубит рубильник.
ИскИн не обязан быть лживым и лицемерным в угоду политкорректности — и совершенно объективно называет вещи своими именами. Если в итальянском ресторане, объективно NB! — лучше обслужат, он не должен искусственно завышать качество обслуживания мексиканского. Пусть мексиканцы подтягиваются по уровню до итальянцев, это честно.
Мне нравится пицца и я предпочту ресторан с итальянским антуражем, грузинскому ресторану с не менее вкусной пиццей. Я прав, если итальянскую пиццерию оценю выше, чем грузинскую? Да, потому что не только качество ингредиентов играет роль, потому что я не заказываю пицца на дом, а иду за впечатлением от посещения.
Если мексиканский ресторан расположен в проблемном мексиканском квартале — я его тоже обойду стороной и поеду в итальянский.
Это предположение или факт?Это факт, потому что в отзыве само слово «мексиканский» будет воспринято как негативное.
Если мексиканский ресторан расположен в проблемном мексиканском квартале — я его тоже обойду стороной и поеду в итальянский.Не спорю, я тоже. А что, если итальянский расположен в плохом районе? Главная идея не в том, чтобы игнорировать факты — их как раз мы оставляем. Идея в том, что в необработанных данных негативная окраска идет из самого слова «мексиканский», и становится уже не важно, где ресторан находится, какое в нем обслуживание и т.п. Возможно, там лучший ресторан на свете, но ранжироваться он будет хуже.
Еще раз — представьте, что вы не заказываете пиццу на дом, а выбираете настроение для пиццы.
Можно перевести на наши реалии и представить «Таджикскую пиццерию». Пойдете?
Вероятно, что в мексиканское тако народ пойдет лучше, чем в итальянское. Но если ранжировать в лоб, то мексиканское будет считаться хуже из-за слова "мексиканское".
В статье объясняется, как избавиться от этого эффекта. Если вас он устраивает, то в своём рейтинге ресторанов вы можете от него не избавляться, в принципе. Ваш рейтинг, ваш выбор.
Если вы хотите чтобы ИИ оценивал еще и отношение к мексиканцам, упоминания о них и пр., то не удивляйтесь что это может скинуть оценку ресторана.
Вы когда лично оцениваете ресторан, читаете подборку газет и криминальной хроники с упоминанием мексиканцев? Думаю что нет. Так и здесь.
Даже человек, с его несовершенным мозгом, не может зачастую решить в какой ресторан пойти. Проблема выбора одна из самых сложных. ИИ решает ее так же, спорно, как и человек. Просто стоит задуматься, ведь человек сам не смог решить эту проблему, так откуда он сможет взять готовое идеальное решение для ИИ.
По мне так надо смириться с тем, что ИИ не идеален, в него заложены те же оценки и алгоритмы, которыми пользуется человек. ИИ не отменит необходимость думать, он сможет лишь помочь человеку, а не решить за него все проблемы.
Если вы ранжируете рестораны то: обслуживанию, еде и цене, то очевидно что для этого не нужен ИИ. Такие агрегаторы уже есть, и они успешно с этим справляются.Нет, неочевидно. Кстати, эти агрегаторы как раз на машинном обучении завязаны зачастую, насколько мне известно. Это дает куда более точные прогнозы, чем простой алгоритм, и позволяет легче масштабировать систему.
Если вы хотите чтобы ИИ оценивал еще и отношение к мексиканцам, упоминания о них и пр., то не удивляйтесь что это может скинуть оценку ресторана.Постарайтесь посмотреть на проблему выше, не зацикливаясь на этом примере. Статья же не про мексиканцев. Она про то, что ИИ берет в себя предрассудки, которые ухудшают результат работы системы. Данный пример был выбран автором как наиболее простой.
Нет, неочевидно. Кстати, эти агрегаторы как раз на машинном обучении завязаны зачастую, насколько мне известно. Это дает куда более точные прогнозы, чем простой алгоритм, и позволяет легче масштабировать систему.
Я про те, в которых сами люди оценки выставляют.
Постарайтесь посмотреть на проблему выше, не зацикливаясь на этом примере. Статья же не про мексиканцев. Она про то, что ИИ берет в себя предрассудки, которые ухудшают результат работы системы. Данный пример был выбран автором как наиболее простой.
ИИ берет в себя то, что дают ему люди. И люди, вероятно, хотят чтобы ИИ ершал проблемы в мире, где живут эти люди. В этом случае ИИ придется учитывать необъективность восприятия людей.
Приведу простой пример: Допустим, есть девушка, она не худенькая, даже обладает небольшим лишним весом. И есть парень-гик, который «в поиске» и вот этот гик решает доверить решение об отношениях с этой девушкой ИИ. ИИ думает, анализирует объективно эту девушку и получается, что «не надо строить с ней отношения». Причем ИИ проанализировал все абсолютно объективно: у девушки лишний вес — значит проблемы со здоровьем, она не очень симпатична — на основе многотысячной выборки возможных вариантов для этого парня, от родителей ей могут передаться некоторые наследственные заболевания и т.п.
Вот она, объективная реальность. И тут ИИ не будет учитывать, что конкретно этому парню эта девушка нравится, что это взаимно и пр. Короче, мы исключили НЕОБЪЕКТИВНЫЙ человеческий фактор.
Я не считаю, что предрассудки, всегда ведут к ухудшению результата. Это можно считать неким шаблоном, который в прошлом часто приводил к проблемам. С течением времени, он превратился в предрассудок. Но прошло время и были устранены основания, которые приводили к проблемам. Вы же сейчас предлагаете начать с чистого листа, т.е. игнорировать исторические факты. Да, можно ограничить ИИ выборкой не за 100 лет, а за 50, тогда будут другие оценки. Но и ценность из будет ниже. Может тогда стоит тратить силы не на то, чтобы «нейтрализовать» данные, а на то, чтобы еще учитывалась оценки изменения мнения? Чтобы ИИ научился видеть, что мнение касательно черных, мексиканцев и пр. меняется к лучшему, что это тоже надо учитывать.
ИИ забыл учесть, что самым красивым девушкам этот парень нафиг не сдался. А то, что ИИ не будет учитывать личную симпатию — это вообще брак алгоритма. Хотя если это skynet-ИИ, который занимается разведением людей (и просто не спрашивает их мнения), тогда проблем нет. Заставит просто.
Личную симпатию — тривиально. Если парень говорит — нет, совсем нет, она мне не нравится, то у ИИ два варианта. Предложить другой вариант или побыть психологом и хитро промыть парню мозг, потому что генетика важнее )
А если вместо парня девушка, то она никогда правдиво не ответит на вопрос «нравится ли тебе этот парень», даже себе ))))
ИИ озабоченный генетикой, тот еще нацист получится )))))
А смысл быть озабоченным генетикой? Не учитывать характер, например — слишком уж тупо, вряд ли кто будет пользоваться таким помощником в подборе пары ("зато у детей глаза голубые будут и плавать сможет на 0.2% быстрее"), уйдут на другой сервис.
Я уже писал выше, что людям сначала самим придется решить эту задачу, а уже потом переносить ее в ИИ.
А если создавать ИИ по образу мозга человека, то придется смириться, что он будет действовать с той же (не)эффективностью.
Сразу видно, что у авторов нет никаких предрассудков, и они считают всех людей равными. Но чёрных примерно на пять тонов равнее. Бедные американцы, как им трудно жить в реальном то мире. :)
Ещё и про точность тут нагнали туфты даже ни разу не заикнувшись о том равновесная у них выборка по этой фиче или нет.
Зашёл почитать про достоверность определения ИИ статистических данных — почитал про штрафики, седушки в автобусах и ужасно несправедливом мире.
Если хотите настолько покладистый и политкорректный ИИ в угоду своих взглядов, то назовите всех "человеки" без деления на пол, религию, цвет кожи и т.д.
Если хотите настолько покладистый и политкорректный ИИ в угоду своих взглядов, то назовите всех "человеки" без деления на пол, религию, цвет кожи и т.д.Это не поможет. В «человеке» узнают всё равно белого. И… оскорбятся.
И предложение про афроамериканцев на русскоязычном хабре, оно насколько к месту? У нас (публики Хабра) все новости пишут белые люди но парадоксов и «расизма» будет не меньше, представьте себе тему про дагестанские кирпичные заводы например.
Во-первых авторы изначально поступили рассистки разделив людей на рассы и начав анализировать данные в таком формате. Мне кажется, чтобы ИИ получился максимально толерантным, то как-раз таки нужно анализировать данные в целом, не деля людей по полу, рассе или другим признакам. И если в результате обучения выъяснится что итальянский ресторан популярнее мексиканского, то так оно и есть и не нужно с этим бороться. Другой вопрос, что проблема может быть в исходных данных для обучения. Но опять-же лечить это нужно изменением набора данных для обучения, а не введением корректирующих коэфициентов.
Иначе фраза: Let's go to Pakistani restaurant? или Let's go to Afghani restaurant? будет иметь явно негативную тональность просто потому, что про эти страны пишут в основном плохое.
Кстати разработка данного ИИ показала реальную проблему общества, т.к. дети учатся также как ИИ, но им не задашь корректирующие коэффициенты. Т.е. существующие источники данных довольно предвзяты по отношению к определённым рассам и нациям.
Ресторан «Гопник» может оказаться отличным заведением в стилистике рабочих окраин. А лапша «Досирак» — вообще культовая вещь ).
Т.е. чтобы во фразах «Итальянский ресторан „А“» и «Мексиканский ресторан „Б“» реальную роль играли «А» и «Б», а не кухня, которую они предлагают.
Изменить набор данных для обучения менее выгодно, чем вести коэффициент. Вручную просмотреть миллион-другой текстов, что бы откинуть неподходящие — бессмысленная трата времени.
Во многих случаях удобнее взять уже готовые векторы слов, чем готовить их самому (аналогия — зачем писать свою библиотеку матричных вычислений, если можно взять готовую?).
Один из вариантов (озвученный в статье) — обнуляете эмоциональную окраску части слов и получаете вполне приемлемый результат.
Вы ведь, в действительности, не задумываетесь о бурёнках, когда едите колбасу.
Как создать расистский ИИ, даже не пытаясь. Часть 2