Ограниченный и субъективный, безразличный и прожорливый: четыре главных проблемы искусственного интеллекта / Habr

В неспокойный 2020 год до 20% прибыли компаний в разных секторах экономики принес искусственный интеллект (ИИ), по опросам McKinsey. Однако чем шире внедряется эта технология, тем зримее трудности на пути её разработчиков. Почему ИИ отучают от расизма и хейтспича, как нейросеть заставляют перестать думать о прошлом, зачем разработчикам ИИ гуманитарный ликбез и сколько реального углекислого газа выбрасывает в атмосферу виртуальный чатбот? Рассказываем о четырёх главных проблемах искусственного интеллекта.

Ты — то, что ты ешь: почему ИИ легко научить плохому

Искусственный интеллект «питается» данными, и его диета по определению не может быть сбалансированной.

Сбор информации — это априори отбор, то есть одни факты включаются в базу, а другие — игнорируются. Поэтому ИИ по определению мыслит индуктивно, а не дедуктивно, то есть на основе множества частных случаев он делает генеральный вывод. Иногда ошибочный.

В 2016 году 22-летний Ричард Ли хотел получить новый паспорт, заполнив форму и загрузив фото на сайте МВД Новой Зеландии. Сайт выдал ошибку: «Глаза человека на фото закрыты» и отклонил заявку Ли. Конечно, глаза его были открыты. Молодой человек имел азиатскую внешность, в т. ч. узкий разрез глаз, которую машина не смогла распознать (и это случалось в 20% подобных случаев, как потом выяснилось), потому что привыкла к облику европейского типа, который имеют большинство жителей страны.

«Диета» ИИ ещё может быть неправильной.

Базы данных для машинного обучения иногда низкокачественные или испорченные. В 2016 году Twitter запустила чатбота по имени Тэй с аватаркой и манерами 19-летней американки, чтобы тот общался с пользователями сети. Всего за сутки чатбота научили дурному — Тэй превратилась в расиста и сексиста, а также призвала построить стену на границе США и Мексики за счёт последней.

Но даже если первыми собеседниками Тэй стали бы членкоры РАН, он(а) все равно был(а) бы ограниченным персонажем, так как черпал(а) информацию и модели поведения у своих собеседников.

Как Тэй учили жизни. Источник: https://habr.com/ru/news/t/392113/

Как сказал бы членкор РАН, искусственный интеллект не способен делать четкие, позитивистски интерпретируемые выводы об объективной реальности. Вместо этого он создает свою реальность, которая служит основой для ограниченных выводов.

Ещё одна проблема базы данных для обучения ИИ — работа с прошлым. БД основаны на исторических данных, поэтому искусственный интеллект практически обречен на ошибки экстраполяции. Говоря проще, ИИ хороший историк, но не столь же хороший прогнозист.

Пример из практики: 2019 год, США, в медучреждениях и страховых компаниях специальный алгоритм ИИ находит пациентов с хроническими заболеваниями, которым больше других нужно особое внимание сестринского персонала. Однако выясняется, что ИИ находит чернокожих пациентов реже, чем белых. Алгоритм анализирует расходы пациентов на медобслуживание, не делая различий между черными и белыми. Но на практике расходы более больных чернокожих пациентов равняются расходам более здоровых белых пациентов. Первым приходилось больше тратиться из-за плохого здоровья (следствие низкого уровня жизни), а вторые могли больше тратиться благодаря высоким доходам. То есть чернокожим пациентам все-таки чаще требовалось внимание врачей, чем белым, но ИИ этого не понимал.

Решить проблему экстраполяции могут цифровые двойники исследуемых систем и явлений. К примеру, в 2018 году компания Toshiba создала цифрового двойника для оживленного направления Лондон — Кембридж британской железной дороги Greater Anglia. Перевозчику понадобилось новое расписание, учитывающее все пики и спады нагрузки на маршрут. Обычно для этого брали исторически данные, но в этот раз железнодорожники решили опираться на информацию от цифрового двойника. На нём железнодорожники испытывали изменения в расписании и искали способы повысить пунктуальность — и всё это так, чтобы не навредить реальным пассажирам, если принятые решения окажутся неэффективны.

Киберфизические системы устраняют или снижают зависимость ИИ от устаревших данных, поставляя ему сведения в реальном времени. Источник: Toshiba Digital Solution Corporation

Что в черном ящике: почему ИИ банальный и непостижимый одновременно

Помимо неправильного «питания» ИИ, есть и трудности, собственно, с «пищеварением» — искусственный интеллект не подобен человеческому ни по возможностям, ни по механизмам работы.

Между искусственным интеллектом и человеческим мозгом нередко проводят параллели. Но даже самые мощные нейросети с миллиардами узлов равны только одному кубическому миллиметру мозговой ткани. Когда мы говорим, что ИИ «думает», «понимает» или «учится», мы получаем весьма приблизительные аналогии.

Вторая проблема ИИ — машинное обучение работает не так, как мозг человека, поэтому его легко обмануть, но иногда невозможно понять.

Самый яркий пример — технология распознавания изображений. ИИ распознает набор пиксельных значений, которые чаще всего указывают на наличие лица на изображении. Строго говоря, ИИ не «узнает» или «распознает» лицо как явление. Поэтому его легко обмануть.

В 2013 году исследователи из Google создали картинки с одинаковыми изображениями, но с измененными цветами отдельных пикселей. Для человека они были идентичными, но нейросеть спутала панду с гиббоном, а ленивца — с гоночной машиной. Также ученые создавали совершенно абстрактные для человека изображения, которые нейросеть распознавала как королевского пингвина и ската.

Добавив несколько наклеек на знак «Стоп», можно заставить ИИ самоуправляемой машины думать, что перед ним знак «Ограничение скорости 45». Источник: Atomic Frontier/YouTube

Принципиального решения этой проблемы пока нет, но есть несколько вариантов. Первый — расширить базу обучения и исправить ошибки, если только мы знаем, где ИИ ошибется. Второй — заставить два ИИ обучать друга — один распознает ошибки, а другой пытается запутать первого. Правда, практика показала, что обучающийся ИИ начинает лучше распознавать ожидаемые ошибки, и хуже — неожиданные. Третий путь — научить ИИ фундаментальным представлениям (пространство, время и т. п.), но как их привязать к конкретному набору пикселей, пока не ясно.

Хотя ИИ легко обмануть, иногда его трудно понять. Чем сложнее машинное обучение, тем труднее создателю ИИ проследить логическую цепочку, по которой вводные данные движутся через миллионы нейронов к выводам. Это называется проблемой черного ящика.

В 2015 году в американских клиниках и больницах внедрили ИИ Deep Patient, который натренировался на историях болезни 700 тыс. пациентов прогнозировать заболевания, в том числе рак. Среди прочего у Deep Patient очень хорошо получалось прогнозировать развитие психических заболеваний, к примеру, шизофрении, хотя для самих врачей это всегда было труднейшей задачей. В то же время ни врачи, ни создатели ИИ так и не смогли понять, по каким призна��ам Deep Patient точно вычислял будущих шизофреников. Вопрос о законности лечения на основе диагноза, который был получен загадочным образом, пока открыт.

Отцы и дети: зачем ИИ нужны гуманитарии и совесть

Третья проблема ИИ: такие системы неизбежно несут на себе отпечаток мышления и ценностей их создателей.

В частности, программисты ИИ обычно «технари», но не сильны в социологии, психологии, истории, юриспруденции или политологии, а между тем от ИИ ждут решения социальных задач. Так в работе ИИ появляются «слепые зоны», как в упомянутом примере с чернокожими пациентами, которых игнорировал искусственный интеллект: алгоритм не учитывал исторически сложившееся неравенство в благосостоянии белых и чернокожих американцев.

Непонимание гуманитарного контекста порождает этические проблемы.

Программисты могут их проигнорировать, а сам искусственный интеллект синдромом Оппенгеймера—Сахарова (чувство вины перед человечеством отцов соответственно атомной и водородной бомб) не страдает . Так, в 2019 году группа ученых написала письмо в издательство Wiley с просьбой удалить статью, в которой авторы рассказывали об испытаниях ИИ-системы распознавания лиц уйгуров в Китае. По данным ООН, эта этноконфессиональная группа систематически притесняется властями КНР. Алгоритмы ИИ успешно отличали лица уйгуров от корейцев и жителей Тибета. Авторы письма осудили ученых, которые работали над статьей и, собственно, алгоритмами ИИ. Возник вопрос: насколько этично пользоваться масштабными базами изображений людей, которые не давали на это своего согласия и могут быть поражены в правах. Журнал Nature провел опрос среди ученых, работающих с искусственным интеллектом, — только 47% ученых из Китая посчитали неэтичным использование изображения лиц, тогда как в США и Европе таких специалистов было более 73%.

Коллаж изображений из базы данных Mega Face. Источник: Adam Harvey / megapixels.cc

В коммерческом секторе этические вопросы разработчиков ИИ также волнуют. В 2018 году Google на фоне протестов сотрудников отказалась сотрудничать с Пентагоном в проекте Maven. Разработчики посчитали, что их алгоритмы могут использовать для летального оружия, и потребовали от руководства отказаться от контракта с военными, что и было сделано. Спустя неделю компания опубликовала манифест с этическими установками в работе с искусственным интеллектом. Сейчас насчитывается порядка 84 подобных документов, которыми руководствуются программисты ИИ в разных корпорациях и учреждениях по всему миру. Впрочем, Пентагон позже объявил призыв на работу в свой Центр исследований ИИ среди работников Кремниевой долины и нашёл нужных специалистов.

У искусственного интеллекта нет сознания и этических установок. Заказчики ИИ — правительства и крупные корпорации, которые если и замышляют что-то нехорошее, то никому об этом не расскажут. Последним невольным защитником добра становится программист, достаточно сознательный, чтобы сказать «Нет».

Но даже говорящий «Нет» руководствуется своими этическими и культурными установками. Так, 70% соискателей на работу, связанную с ИИ в США, — белые, и только 14% — чернокожие или латиноамериканцы. В Германии студентки составляют только 20% от общего числа первокурсников на информатике. Нетрудно догадаться, что искусственный интеллект по определению становится сыном своих белых отцов из развитых стран.

Механический турок: почему ИИ основан на ручном труде и вредит экологии

На первый взгляд искусственный интеллект — это нематериальный продукт. На самом же деле — и это четвертая проблема — за успехом ИИ стоят миллионы компьютерных чернорабочих и сотни метрических тонн углекислого газа.

Чтобы обучить ИИ, его надо «накормить» данными, которые далеко не всегда можно собрать автоматически. Часто такие базы формируются с применением ручного труда. Причем чем сложнее и «утончённее» цель обучения, тем более качественная информация нужна. Откуда она берется?

Разработчики ИИ размещают заказы на сбор или обработку разных данных на краудсорсинговых платформах в сети (Amazon Mechanical Turk, Clickworkers и т.п.). Участники платформы со всего мира соглашаются или отклоняют его. К примеру, платформа Clickworker предлагают услуги 2,8 млн человек из разных стран (преимущественно Северной Америки и Европы), которые создают обучающие данные, ищут и собирают фотографии, аудио- и видеозаписи, аннотируют и атрибутируют тексты, фильтруют электронную почту и т. п.

У краудсорсингового сервиса Amazon Mechanical Turk симптоматичное название: в конце XVIII века австриец Вольфганг фон Кемпелен сконструировал шахматный «автомат» в виде фигуры турка, который якобы играл в шахматы, а на самом деле внутри сидел маленький живой гроссмейстер. Изобретатель путешествовал с ним по Европе и впечатлял доверчивую публику. Источник: Wikimedia Commons

То есть фактически часть технологии искусственного интеллекта — ручной и, к сожалению, не высокооплачиваемый труд. По данным исследовательского центра Pew, 52% «кликателей» из США зарабатывают менее 5 долл. в час, что ниже минимального размера оплаты труда в США (7,25 долл. в час), а еще 39% — от 5 до 8 долл. в час.

Искусственный интеллект затратен с точки зрения не только человеческих, но и природных ресурсов, что прямо влияет на его углеродный след. По данным исследователей из Беркли и компании Google, GPT-3 — самая мощная и продвинутая языковая модель в мире — за время обучения производит эквивалент 552 метрических тонн углекислого газа. Столько же в течение года при езде выделяют 120 легковых автомобилей с ДВС. Менее сложные системы также оставляют большой углеродный след. Продвинутый чат-бот Google Meena при чтении 340 ГБ текстов произвела 96 метрических тонн углекислого газа — столько же год выделяют 17 домовладений.

Подведем итог: какие из перечисленных проблем ИИ принципиально не разрешимые?

Искусственный интеллект всегда будет конструировать, а не воспроизводить реальность. Эту черту мышления он наследует у своего создателя — человека. Сверхразум, который может объять и осмыслить реальность во всем её многообразии, — пока научная фантастика.
На искусственный интеллект прямо влияют предположения, взгляды и ценности, отраженные в базах данных, на которых он учится, и в алгоритмах, которые в нём заложены. Искусственный интеллект никогда не будет нейтральным и объективным.
Искусственный интеллект никогда не будет полностью виртуальным и автономным. Для его работы требуются материальные и людские ресурсы.

Однако другие препятствия на пути развития ИИ можно если не преодолеть полностью, то нивелировать: расширять базу обучения, бороться за прозрачность алгоритмов ИИ, расширять гуманитарную грамотность разработчиков и переводить системы ИИ на возобновляемые источники энергии.