Pull to refresh

Comments 48

алгоритмы не анализируют объективную реальность. Они анализируют тексты, написанные людьми.

А люди, которые свои мысли пишут, где живут? На планете Нибиру? Как раз эта объективная, окружающая их реальность и отражается в их мыслях т.е. в тексте.

Мне жаль, что вы не дочитали тот же самый абзац до конца.
Для начала задумаемся о природе этих текстов — кто, когда и зачем их написал. Надеюсь, здесь очевиден перекос в выборке. Большинство текстов пишется белыми людьми. Это значит, что мы толком не учитываем мнение остальных. Большинство новостных текстов пишется про ужасы этого мира — значит, мы толком не учитываем то хорошее, что в нем есть.
Большинство новостных текстов пишется про ужасы этого мира — значит, мы толком не учитываем то хорошее, что в нем есть.

Это вы сами придумали, или взяли где?

Вставлю ИМХО. На русском подавляющая часть новостей, которая встречается мне — именно про негатив. Хабр лучше в этом плане, но в основном так — аварии, политические разборки и кто где не прав. У кого не так — тому везёт )

Я ведь и спрашивал, это субъективное мнение, или результат какого-то анализа? Что у вас и у автора может быть такое субъективное мнение ("везде чернуха одна") я вполне верю. Но это на самом деле мало что меняет. У нас есть для анализа такие тексты, какие есть. Если в мире в текстах больше негатива — надо научиться с этим жить, а не устраивать искусственные перекосы, обучая ИИ непонятно на чем, с целью устранить некий "расизм".

Зачем нам с этим "жить"? Если я захочу устранить влияние какого-то фактора в своём алгоритме (например, не учитывать имена), я вполне могу это сделать.


Это просто программирование и жизненную философию ("искусственные перекосы", "научиться с этим жить") к нему применять не обязательно. Если вы решите, что мой сервис недостаточно хорош, а у конкурента он лучше (который не устранял перекосы и, например, все грузинские рестораны ранжирует ниже итальянских) — ваше право.


Но может оказаться и наоборот. Потому что "мусор на входе — мусор на входе". Обработка данных, что бы убрать часть мусора, применяется всегда.

Внести искусственный перекос вместо того, чтобы понять, откуда взялся естественный, т.е. почему у слова "мексиканский" негативный оттенок? По-моему это тупиковый метод. Т.е. вместо анализа контекста, и попытки понять, почему это так — мы вносим поправки, и пытаемся выровнять то, что исходно не равно.


Этот подход мне напоминает другую историю — вот фейсбук, к примеру, наивно считает, что если я открыл рекламу, то мне интересна тема этой рекламы. И начинает мне подсовывать еще, похожие. Вы видите тут перекос? Я — да. На самом деле я открываю рекламу только тогда, когда считаю ее раздражающей, неприятной, оскорбительной и т.п. — т.е. для того, чтобы пожаловаться. Но им не хватает интеллекта, чтобы понять, что за кликом по ссылке в 100% следует жалоба и бан рекламодателя.


Чтобы убрать мусор — нужно понимать, откуда он берется, и какова его природа. Мне так кажется...

Да не внести перекос, а убрать влияние фактора, который тебе не нужен. Далеко не всегда нужно тратить время для анализа "природы" чего-то лишнего.


Хотя если вы не коммерческий продукт создаёте, а именно исследованиями занимаетесь, тогда вопросов нет — конечно изучайте природу перекосов и предлагайте модели работы с ними. Возможно, пригодится.

Мне кажется в этом видео есть ответ на вопрос зачем «исправлять» исходные данные для обучения ИИ — www.ted.com/talks/cathy_o_neil_the_era_of_blind_faith_in_big_data_must_end/up-next
Может с нашей стороны океана проблема пока ещё не так очевидна, но видимо совсем скоро нас ждут ровно такие же проблемы.
Мы ИИ хотим научить жить в реальном мире или объективном?
В Японии получить медицинскую помощь европейцу сложнее, чем азиату, это реальность. В Штатах процент преступлений с участием черных выше, чем белых, это реальность. Итальянская пища нравится большему количеству людей, чем мексиканская, это реальность.
Возможности людей зависят от места рождения, их расы и пола, это тоже реальность.
Все это может быть объективно несправедливым, и со временем возможности выравниваются. Но на данный момент, это реальность.
Так ИИ как раз способен менять реальность. Почему бы не помочь ему в этом?
со временем возможности выравниваются
Они выравниваются, потому что люди меняют свои взгляды. Мне кажется, вы сами своими словами объясняете, почему важно поменять данные, чтобы завтрашняя реальность стала лучше сегодняшней.
Если ИИ будет способен менять реальность, то он вполне может решить поменять ее в духе SkyNet. :) И будет объективен, т.к. человек угнетает животных и природу. Я бы не хотел ему в этом помогать.
Люди меняют свои взгляды не на пустом месте, этому предшествуют изменившиеся условия. Подменяя данные вы создаете ложные предпосылки, а как известно, из ложных предпосылок нельзя сделать истинные выводы.
Не надо делать вид что забывая о прошлом мы становимся лучше, это не так. И ИИ не станет лучше, если ему надеть розовые очки.
Плюс ко всему, инициатором изменений должен быть человек, а не ИИ. Ведь это для человека должны происходить изменения в мире, а не для ИИ.

От того что ИИ будет жить в ином мире, завтрашняя реальность лучше не станет, она просто все больше и больше будет расходиться с мировосприятием человека, до тех пор, пока не будет признана фантастической и кто-то не вырубит рубильник.
Мне кажется и в этом мнении, есть немалый bias.
А может все наоборот?

ИскИн не обязан быть лживым и лицемерным в угоду политкорректности — и совершенно объективно называет вещи своими именами. Если в итальянском ресторане, объективно NB! — лучше обслужат, он не должен искусственно завышать качество обслуживания мексиканского. Пусть мексиканцы подтягиваются по уровню до итальянцев, это честно.
Но если мексиканский ресторан был во всем лучше, его все равно отранжируют ниже, потому что изначально в данных мексиканская еда всегда хуже итальянской.
Это предположение или факт? Вы можете дать адреса конкретных ресторанов и объективно рассказать, чем они лучше или хуже?

Мне нравится пицца и я предпочту ресторан с итальянским антуражем, грузинскому ресторану с не менее вкусной пиццей. Я прав, если итальянскую пиццерию оценю выше, чем грузинскую? Да, потому что не только качество ингредиентов играет роль, потому что я не заказываю пицца на дом, а иду за впечатлением от посещения.

Если мексиканский ресторан расположен в проблемном мексиканском квартале — я его тоже обойду стороной и поеду в итальянский.
Это предположение или факт?
Это факт, потому что в отзыве само слово «мексиканский» будет воспринято как негативное.

Если мексиканский ресторан расположен в проблемном мексиканском квартале — я его тоже обойду стороной и поеду в итальянский.
Не спорю, я тоже. А что, если итальянский расположен в плохом районе? Главная идея не в том, чтобы игнорировать факты — их как раз мы оставляем. Идея в том, что в необработанных данных негативная окраска идет из самого слова «мексиканский», и становится уже не важно, где ресторан находится, какое в нем обслуживание и т.п. Возможно, там лучший ресторан на свете, но ранжироваться он будет хуже.
В «Мексиканская пиццерия» — слово «мексиканская» будет воспринято негативно, как и в «Грузинская пиццерия». А в «Мексиканское тако» народ пойдет с большей охотой, чем в «Грузинское тако». Не только потому, что есть сомнения в том, что мексиканцы сделают пиццу хуже итальянцев, а потому что к пицце хочется итальянский колорит.

Еще раз — представьте, что вы не заказываете пиццу на дом, а выбираете настроение для пиццы.

Можно перевести на наши реалии и представить «Таджикскую пиццерию». Пойдете?

Вероятно, что в мексиканское тако народ пойдет лучше, чем в итальянское. Но если ранжировать в лоб, то мексиканское будет считаться хуже из-за слова "мексиканское".


В статье объясняется, как избавиться от этого эффекта. Если вас он устраивает, то в своём рейтинге ресторанов вы можете от него не избавляться, в принципе. Ваш рейтинг, ваш выбор.

Давайте для начала определимся в чем это «во всем»? Если вы ранжируете рестораны то: обслуживанию, еде и цене, то очевидно что для этого не нужен ИИ. Такие агрегаторы уже есть, и они успешно с этим справляются. Больше того, в них НЕТ расизма. Люди тупо ставят циферки в трех категориях и все. Вполне себе объективно.
Если вы хотите чтобы ИИ оценивал еще и отношение к мексиканцам, упоминания о них и пр., то не удивляйтесь что это может скинуть оценку ресторана.
Вы когда лично оцениваете ресторан, читаете подборку газет и криминальной хроники с упоминанием мексиканцев? Думаю что нет. Так и здесь.

Даже человек, с его несовершенным мозгом, не может зачастую решить в какой ресторан пойти. Проблема выбора одна из самых сложных. ИИ решает ее так же, спорно, как и человек. Просто стоит задуматься, ведь человек сам не смог решить эту проблему, так откуда он сможет взять готовое идеальное решение для ИИ.
По мне так надо смириться с тем, что ИИ не идеален, в него заложены те же оценки и алгоритмы, которыми пользуется человек. ИИ не отменит необходимость думать, он сможет лишь помочь человеку, а не решить за него все проблемы.
Если вы ранжируете рестораны то: обслуживанию, еде и цене, то очевидно что для этого не нужен ИИ. Такие агрегаторы уже есть, и они успешно с этим справляются.
Нет, неочевидно. Кстати, эти агрегаторы как раз на машинном обучении завязаны зачастую, насколько мне известно. Это дает куда более точные прогнозы, чем простой алгоритм, и позволяет легче масштабировать систему.
Если вы хотите чтобы ИИ оценивал еще и отношение к мексиканцам, упоминания о них и пр., то не удивляйтесь что это может скинуть оценку ресторана.
Постарайтесь посмотреть на проблему выше, не зацикливаясь на этом примере. Статья же не про мексиканцев. Она про то, что ИИ берет в себя предрассудки, которые ухудшают результат работы системы. Данный пример был выбран автором как наиболее простой.
Нет, неочевидно. Кстати, эти агрегаторы как раз на машинном обучении завязаны зачастую, насколько мне известно. Это дает куда более точные прогнозы, чем простой алгоритм, и позволяет легче масштабировать систему.

Я про те, в которых сами люди оценки выставляют.
Постарайтесь посмотреть на проблему выше, не зацикливаясь на этом примере. Статья же не про мексиканцев. Она про то, что ИИ берет в себя предрассудки, которые ухудшают результат работы системы. Данный пример был выбран автором как наиболее простой.

ИИ берет в себя то, что дают ему люди. И люди, вероятно, хотят чтобы ИИ ершал проблемы в мире, где живут эти люди. В этом случае ИИ придется учитывать необъективность восприятия людей.

Приведу простой пример: Допустим, есть девушка, она не худенькая, даже обладает небольшим лишним весом. И есть парень-гик, который «в поиске» и вот этот гик решает доверить решение об отношениях с этой девушкой ИИ. ИИ думает, анализирует объективно эту девушку и получается, что «не надо строить с ней отношения». Причем ИИ проанализировал все абсолютно объективно: у девушки лишний вес — значит проблемы со здоровьем, она не очень симпатична — на основе многотысячной выборки возможных вариантов для этого парня, от родителей ей могут передаться некоторые наследственные заболевания и т.п.
Вот она, объективная реальность. И тут ИИ не будет учитывать, что конкретно этому парню эта девушка нравится, что это взаимно и пр. Короче, мы исключили НЕОБЪЕКТИВНЫЙ человеческий фактор.

Я не считаю, что предрассудки, всегда ведут к ухудшению результата. Это можно считать неким шаблоном, который в прошлом часто приводил к проблемам. С течением времени, он превратился в предрассудок. Но прошло время и были устранены основания, которые приводили к проблемам. Вы же сейчас предлагаете начать с чистого листа, т.е. игнорировать исторические факты. Да, можно ограничить ИИ выборкой не за 100 лет, а за 50, тогда будут другие оценки. Но и ценность из будет ниже. Может тогда стоит тратить силы не на то, чтобы «нейтрализовать» данные, а на то, чтобы еще учитывалась оценки изменения мнения? Чтобы ИИ научился видеть, что мнение касательно черных, мексиканцев и пр. меняется к лучшему, что это тоже надо учитывать.

ИИ забыл учесть, что самым красивым девушкам этот парень нафиг не сдался. А то, что ИИ не будет учитывать личную симпатию — это вообще брак алгоритма. Хотя если это skynet-ИИ, который занимается разведением людей (и просто не спрашивает их мнения), тогда проблем нет. Заставит просто.

ИИ не способен оценить сдался парень девушкам или нет, так же, как и личную симпатию. И это не брак алгоритма, это то, что в него нельзя заложить, т.к. сами люди не способны это оценить и учесть.

Личную симпатию — тривиально. Если парень говорит — нет, совсем нет, она мне не нравится, то у ИИ два варианта. Предложить другой вариант или побыть психологом и хитро промыть парню мозг, потому что генетика важнее )

Ну т.е. либо поверить в вероятную ложь, либо наплевать на человеческий фактор (о чем я и писал выше). Это не учет личной симпатии, это вера на слово.
А если вместо парня девушка, то она никогда правдиво не ответит на вопрос «нравится ли тебе этот парень», даже себе ))))
ИИ озабоченный генетикой, тот еще нацист получится )))))

А смысл быть озабоченным генетикой? Не учитывать характер, например — слишком уж тупо, вряд ли кто будет пользоваться таким помощником в подборе пары ("зато у детей глаза голубые будут и плавать сможет на 0.2% быстрее"), уйдут на другой сервис.

Я к тому что все это учитывать очень сложно. Банально балансировать параметры запаришься. В разных ситуациях и в разном возрасте человеку могут быть более или менее важны разные черты личности. Тут заниматься подбором по списку параметров попросту невозможно.
Я уже писал выше, что людям сначала самим придется решить эту задачу, а уже потом переносить ее в ИИ.
А если создавать ИИ по образу мозга человека, то придется смириться, что он будет действовать с той же (не)эффективностью.
Я то думал, они какой-то статистический парадокс нам покажут, а они всего лишь, ввели штрафы для белых, и бонусы для чёрных.

Сразу видно, что у авторов нет никаких предрассудков, и они считают всех людей равными. Но чёрных примерно на пять тонов равнее. Бедные американцы, как им трудно жить в реальном то мире. :)

Ещё и про точность тут нагнали туфты даже ни разу не заикнувшись о том равновесная у них выборка по этой фиче или нет.

Зашёл почитать про достоверность определения ИИ статистических данных — почитал про штрафики, седушки в автобусах и ужасно несправедливом мире.


Если хотите настолько покладистый и политкорректный ИИ в угоду своих взглядов, то назовите всех "человеки" без деления на пол, религию, цвет кожи и т.д.

Tunerok
Если хотите настолько покладистый и политкорректный ИИ в угоду своих взглядов, то назовите всех "человеки" без деления на пол, религию, цвет кожи и т.д.
Это не поможет. В «человеке» узнают всё равно белого. И… оскорбятся.
А почему вообще тема определения тональности коротких текстов (вспомогательная вроде бы) так сильно влияет на ИИ?
И предложение про афроамериканцев на русскоязычном хабре, оно насколько к месту? У нас (публики Хабра) все новости пишут белые люди но парадоксов и «расизма» будет не меньше, представьте себе тему про дагестанские кирпичные заводы например.
леваки из корпорации зла опять пытаются промыть мозги роботу.
Не разделяю точку зрения авторов и переводчика по поводу «реальных» и «идеальных» данных для ИИ.
Во-первых авторы изначально поступили рассистки разделив людей на рассы и начав анализировать данные в таком формате. Мне кажется, чтобы ИИ получился максимально толерантным, то как-раз таки нужно анализировать данные в целом, не деля людей по полу, рассе или другим признакам. И если в результате обучения выъяснится что итальянский ресторан популярнее мексиканского, то так оно и есть и не нужно с этим бороться. Другой вопрос, что проблема может быть в исходных данных для обучения. Но опять-же лечить это нужно изменением набора данных для обучения, а не введением корректирующих коэфициентов.
Дополню свой комментарий: а что если пометить имена, названия стран и прочие нетолерантные слова как нейтральные?! Мне кажется это поможет уменьшить предвзятость текстов.
Иначе фраза: Let's go to Pakistani restaurant? или Let's go to Afghani restaurant? будет иметь явно негативную тональность просто потому, что про эти страны пишут в основном плохое.

Кстати разработка данного ИИ показала реальную проблему общества, т.к. дети учатся также как ИИ, но им не задашь корректирующие коэффициенты. Т.е. существующие источники данных довольно предвзяты по отношению к определённым рассам и нациям.
UFO just landed and posted this here
В моём комментарии не было ни слова про названия, а только про страны, имена, пол и цвет кожи.
Ресторан «Гопник» может оказаться отличным заведением в стилистике рабочих окраин. А лапша «Досирак» — вообще культовая вещь ).
Т.е. чтобы во фразах «Итальянский ресторан „А“» и «Мексиканский ресторан „Б“» реальную роль играли «А» и «Б», а не кухня, которую они предлагают.
Возможно я чего-то не понимаю, но предлагаемая рестораном кухня — основной критерий выбора. И если мне предпочтительнее итальянская кухня, а не мексиканская, не всё ли равно почему — потому что я не люблю острое или потому что Мексика у меня ассоциируется с наркоторговлей?
тогда и обучать алгоритм нужно на отзывах о ресторанах и информации о кулинарии, а не на статьях с новостных сайтов. Но даже тут остаётся предвзятость. К примеру: итальянская или французская кухня ассоциируется с довольно дорогими и изыскаными ресторанами, а мексиканская — с более дешёвыми и простыми. Т.е. вполне может быть такое, что мексиканский ресторан будет иметь больше негативных отзывов о сервисе, а итальянский — о ценах. Допустим в вашем городе всё наоборот: есть отличный мексиканский ресторан, и посредственная итальянская пицерия. Если не придавать названиям стран нейтральный оттенок, то алгоритм посоветует вам пойти в итальянскую забегаловку. Если же ввести коэфициенты, то в данном случае итальянская забегаловка будет выглядеть ещё хуже в глазах алгоритма, а мексиканский ресторан — ещё лучше. Что тоже нечестно.

Изменить набор данных для обучения менее выгодно, чем вести коэффициент. Вручную просмотреть миллион-другой текстов, что бы откинуть неподходящие — бессмысленная трата времени.

тут можно приенить релевантность. Т.е. если вы учите систему помогать в выборе ресторанов, то вбейте в гугл «рестораны и кафе» и учите алгоритм по первому миллиону статей. А если вы будете учить алгоритм по новостным сайтам, а потом попросите его выбрать ресторан, то ничего хорошего не выйдет.

Во многих случаях удобнее взять уже готовые векторы слов, чем готовить их самому (аналогия — зачем писать свою библиотеку матричных вычислений, если можно взять готовую?).


Один из вариантов (озвученный в статье) — обнуляете эмоциональную окраску части слов и получаете вполне приемлемый результат.

Мне кажется, что создание универсального ИИ — глупая и бесперспективная задача. ИИ должен быть заточен для решения определённых проблем. Поэтому и готовые универсальные векторы слов — тоже не самая лучшая идея. К примеру есть слово «автомат» и в новостных статьях он будет имент негативный оттенок и ассоциироваться с оружием, в то время как в статьях по электротехнике уже будет иметь нейтрально-позитивный оттенок и ассоциироваться с защитным отключением. Или к примеру слово «голубой»…

Вы можете взять готовые векторы за 15 минут или сделать свои за пару недель (или за полдня, но заметно более плохие). Да и за две недели не факт, что будет лучше. Может не найтись столько статей по электротехнике.

Мне представляется простое решение проблемы *расистского* ИИ, тем более что не надо изобретать велосипед. Просто скрыть *расистские* части под капот. Скажем, когда условная парижанка просит ИИ в своём смартфоне составить маршрут прогулки по городу, он исключает мусульманские районы, но в явной форме мотивирует свои решения *ну прост такой маршрут, а чё*. И толерантные чувства парижанки не задеты, и сама парижанка цела. Аналогично с ресторанами и пр.
Вы ведь, в действительности, не задумываетесь о бурёнках, когда едите колбасу.
Я прозреваю инвазию леволиберальных SJW в науку о данных, и мне эта тенденция соверщенно не нравится. Подбирать модель описания данных, где якобы нет различий в эмоциональной окраске в случаях терминов разной этнической и религиозной принадлежности — это лепить горбатого к стенке, искажая объективную реальность. Тем более, судя по последнему графику, там данные просто иначе отмасштабированы и сдвинуты ниже нуля, а смысл один, просто в других величинах. Настороженное отношение к чужакам вообще свойственно живому существу, по крайней мере успешным видам, к которым относится и человек, а кроме того, если взглянуть на статистику преступлений в тех же САСШ в разрезе ethnicity, то становится совершенно понятно подобное отношение. У нас та же песня, и не надо манипулятивно натягивать сову на глобус, доказывая, что biased-отношения на самом деле нет. Сама суть подобных потуг порочна. Ну не будут никогда все равны, даже в рамках популяции одного этноса. Кстати, там у них нет евреев, я негодую. И да, зря MS бота выпилил, я считаю, надо было оставить на дообучении, так, троллинга левацкой сволочи для.

Так это для вас "левацкие", видимо, враги. Но не для всех же. Другим людям в чем интерес их троллить?

Sign up to leave a comment.