Мелани Митчелл: что для ИИ значит понимать? / Хабр

Профессор в Институте Санта-Фе и автор работы «Искусственный интеллект: руководство для мыслящих людей» Мелани Митчелл делится соображениями о способности искусственного интеллекта к пониманию. За подробностями приглашаем под кат, пока начинается наш курс по ML и DL.

Помните суперкомпьютер IBM Watson, победителя телешоу Jeopardy!?!

В анонсе 2010 года говорилось: «Watson понимает естественный язык со всей его неоднозначностью и сложностью».

Но, когда Watson потерпел грандиозную неудачу, пытаясь «с помощью ИИ совершить революцию в медицине», стало очевидно: внешние лингвистические возможности не дают настоящего понимания человеческого языка.

Понимание естественного языка давно стало главной целью исследований ИИ. Сначала учёные пытались вручную запрограммировать всё необходимое, чтобы машина понимала новостные сообщения, художественную литературу и всё, что могут написать люди.

Такой подход, как показал Watson, бесполезен — записать все факты, правила и предположения, необходимые для понимания текста, невозможно. Совсем недавно появился новый подход: не закладывать в машины знания, а давать им самим учиться понимать язык, поглощая огромное количество написанного текста и предсказывая слова.

В результате получается то, что учёные называют языковой моделью. Основанные на больших нейронных сетях типа GPT-3 от OpenAI такие модели могут генерировать прозу (и поэзию!), удивительно похожую на человеческую, и даже делать сложные лингвистические умозаключения.

Но превзошла ли GPT-3, обученная на текстах с тысяч сайтов, книг и энциклопедий, Watson с его внешними лингвистическими возможностями? Действительно ли она понимает и даже рассуждает на генерируемом ею языке?

Это тема серьёзных разногласий в сообществе исследователей ИИ. Раньше такие дискуссии были прерогативой философов, но в последнее десятилетие ИИ вырвался из академического пузыря в реальный мир. И его непонимание этого мира может иметь реальные, а подчас разрушительные последствия.

В одном исследовании обнаружено, что компьютер IBM Watson предлагает «много примеров небезопасных и неправильных рекомендаций по лечению». В другом исследовании показывалось, что система машинного перевода Google допускала существенные ошибки при переводе медицинских инструкций для неанглоязычных пациентов.

Как определить на практике, может ли машина понимать? В 1950 году пионер вычислительной науки Алан Тьюринг попытался ответить на этот вопрос с помощью своей знаменитой «имитационной игры», которая теперь называется тестом Тьюринга: судья-человек на основе только беседы, не видя, кто перед ним, пытается определить, с машиной он говорит или с человеком. Если судья не смог определить, кто человек, то, как утверждал Тьюринг, мы должны считать, что машина мыслит, а значит — понимает.

Но Тьюринг не учёл, что машины могут вводить людей в заблуждение. Даже простые чат-боты 1960-х годов, такие как психотерапевт Элиза Джозефа Вайценбаума, убеждали людей, что они разговаривают с понимающим существом, даже когда люди знали, что их собеседник — машина.

В работе 2012 года учёные Эктор Левеск, Эрнест Дэвис и Леора Моргенштерн предложили более объективный тест — схему Винограда.

Этот тест принят в языковом сообществе ИИ как один из способов оценить понимание машин (возможно, лучший способ, хотя, как мы увидим, неидеальный). Схема Винограда, названная так в честь исследователя языка Терри Винограда, состоит из пары предложений, которые отличаются ровно одним словом. За каждым из предложений следует вопрос. Вот два примера:

Предложение 1. Я наливал воду из бутылки в чашку, пока она не наполнилась.
Вопрос. Что наполнилось, бутылка или чашка?

Предложение 2. Я наливал воду из бутылки в чашку, пока она не стала пустой.
Вопрос. Стала пустой бутылка или чашка?

Предложение 1. Дядя Джо ещё может обыграть его в теннис, хотя он на 30 лет старше.
Вопрос. Кто старше, Джо или дядя Джо?

Предложение 2. Дядя Джо ещё может обыграть его в теннис, хотя он на 30 лет моложе.
Вопрос. Кто моложе, Джо или дядя Джо?

Каждая пара предложений отличается на одно слово, которое влияет на то, к чему или кому относится местоимение. Чтобы ответить правильно, требуется здравый смысл. Именно он и проверяется схемами Винограда, при этом снижается уязвимость теста Тьюринга в виде человеческого фактора (судей) или уловок чат-ботов.

Было даже разработано несколько сотен схем, которые, по задумке их авторов, не должны позволять машине использовать поиск Google (или что-то подобное), чтобы правильно отвечать на вопросы.

Эти схемы участвовали в конкурсе 2016 года, в котором победившая программа правильно ответила лишь на 58 % вопросов — результат едва ли лучше, чем если бы машина угадывала. Орен Этциони, ведущий исследователь ИИ, язвительно заметил:

«Когда ИИ не может определить, к чему в предложении относится «он» или «она», трудно поверить, что он захватит мир».

Но появились большие языковые модели нейронных сетей, и способность программ ИИ правильно отвечать на вопросы схемы Винограда быстро возросла. В работе OpenAI 2020 года сообщалось, что GPT-3 был точен почти в 90 % предложений контрольного набора схем Винограда. Другие языковые модели показали ещё лучшие результаты после обучения конкретно этим задачам. На момент написания этой статьи языковые модели нейронных сетей достигли точности около 97 % в определённом наборе схем Винограда, которые являются частью конкурса SuperGLUE на понимание языка ИИ. Это примерно равно точности человека. Значит, языковые модели нейронных сетей достигли уровня понимания, сопоставимого с человеческим?

Необязательно. Несмотря на все усилия создателей этих схем Винограда, на самом деле уйти от использования Google не удалось. В этих задачах, как и во многих ��ругих современных тестах на понимание языка искусственным интеллектом, иногда разрешены приёмы, позволяющие нейронным сетям показывать хорошие результаты и без этого понимания.

Возьмём предложения «Спорткар обогнал почтовый грузовик, потому что он ехал быстрее» и «Спорткар обогнал почтовый грузовик, потому что он ехал медленнее». Языковая модель, обученная на огромном количестве предложений, усвоит корреляцию между «спорткаром» и «быстрым», а также между «почтовым грузовиком» и «медленным». Поэтому она сможет правильно ответить, основываясь только на этих корреляциях, а не опираясь на какое-то понимание. Оказывается, многие схемы Винограда в конкурсе SuperGLUE допускают статистические корреляции такого рода.

Группа учёных из Института искусственного интеллекта Аллена не отказалась от схем Винограда, а попыталась решить кое-какие проблемы. В 2019 году они создали ещё больший набор схем Винограда WinoGrande: вместо нескольких сотен примеров он содержит целых 44 000 предложений.

Чтобы получить такое количество примеров, учёные обратились к популярной платформе краудсорсинговой работы Amazon Mechanical Turk. Каждого участника (человека) попросили написать несколько пар предложений, но с ограничениями, чтобы в наборе были разные темы, хотя теперь предложения в каждой паре могли отличаться более чем на одно слово.

Затем учёные попробовали исключить предложения, в которых могли использоваться статистические ухищрения, применив относительно простой метод ИИ к каждому предложению и отбросив всё самое легкое. Как и ожидалось, остались предложения, гораздо более сложные для машин, чем первоначальный набор схем Винограда.

У людей результаты были по-прежнему очень высокие, а вот у языковых моделей нейронных сетей, имевших в первоначальном наборе сходные с человеческими результаты, в наборе WinoGrande они стали намного ниже. В этой новой задаче схемы Винограда применялись в качестве теста на наличие здравого смысла — притом предложения тщательно проверялись, чтобы машины не пользовались Google.

Но нас ждал ещё один сюрприз. За почти два года, прошедшие с момента публикации набора WinoGrande, языковые модели нейронных сетей стали ещё больше. И чем больше они становились, тем лучше справлялись с этой новой задачей.

На момент написания этой статьи лучшие современные программы, обученные на терабайтах текста, а затем ещё и на тысячах примеров WinoGrande, близки к 90 % точности (у людей около 94%). Такое увеличение почти полностью обусловлено размером языковых моделей нейронной сети и данных для их обучения.

Достигли ли наконец эти всё увеличивающиеся сети уровня понимания, сопоставимого с человеческим? Маловероятно. В результатах WinoGrande есть важные нюансы. Например, предложения написаны участниками Amazon Mechanical Turk, поэтому качество и последовательность написания довольно неравномерны.

Кроме того, «простой» метод ИИ для отсеивания предложений, допускающих использование машиной поиска Google, вероятно, был слишком простым, чтобы определить все возможные статистические ухищрения, доступные огромной нейронной сети: он применялся только к отдельным предложениям, поэтому часть оставшихся в итоге потеряли своего «двойника».

Одно из дальнейших исследований показало, что языковые модели нейронных сетей, протестированные только на предложениях-двойниках — которые должны давать правильные ответы в обоих случаях — гораздо менее точны, чем люди. То есть достигнутый ранее результат в 90% не такой значительный, каким казался.

Какие же уроки можно извлечь из саги Винограда? Главный урок — по результатам систем ИИ в той или иной задаче часто трудно определить, действительно ли они понимают язык или другие обрабатываемые ими данные. Теперь мы знаем, что нейронные сети часто используют статистические ухищрения — вместо того, чтобы продемонстрировать реальный уровень понимания, сопоставимый с человеческим — для получения высоких результатов в схемах Винограда, а также многих популярных тестах «общего понимания языка».

Суть проблемы, на мой взгляд, в том, что для понимания языка требуется понимание мира. Машина же ограничена рамками языка и не может достичь такого понимания. Подумайте, что нужно для понимания предложения «Спорткар обогнал почтовый грузовик, потому что он ехал медленнее». Нужно знать, что такое спорткары и почтовые грузовики, что автомобили могут обгонять друг друга и что (на ещё более обобщённом уровне) транспортные средства — это объекты, которые существуют и взаимодействуют, что ими управляют люди со своими собственными целями.

Все эти знания мы, люди, считаем само собой разумеющимся, но они вряд ли будут в явном виде записаны в тексте для обучения языковой модели или встроены в машины. Лингвисты утверждают: люди используют врожденные, внеязыковые базовые знания о пространстве, времени и многих других существенных свойствах мира, чтобы изучать и понимать язык.

Если мы хотим, чтобы машины точно так же овладели человеческим языком, сначала нужно наделить их владением принципами, которыми люди обладают с рождения. Чтобы оценить способность машин к пониманию, следует начать с оценки понимания ими этих принципов, которые можно было бы назвать «детской метафизикой».

Обучение и оценка машин для развития у них интеллекта на уровне младенца может показаться гигантским шагом назад по сравнению с потрясающими достижениями систем ИИ типа Watson и GPT-3. Но если цель — истинное и достоверное понимание, то это может быть единственный путь, чтобы получить машины, которые могут по-настоящему понимать, что означает «он» или «она» в предложении и всего, что влечёт за собой понимание этого.

Продолжить изучение ИИ вы сможете на наших курсах:

Узнайте подробности акции.

Другие профессии и курсы

Data Science и Machine Learning

Python, веб-разработка

Мобильная разработка

Java и C#

От основ — в глубину

А также

Мелани Митчелл: что для ИИ значит понимать?

Публикации

Информация