Компьютеры постепенно приближаются к обладанию здравым смыслом / Хабр

Специалисты, изучающие искусственный интеллект, уже 50 лет борются с задачей построения рассуждений при помощи здравого смысла. Новый подход к этой проблеме, созданный на основе двух совершенно разных подходов к мышлению, демонстрирует важные достижения.

Однажды вечером, в октябре прошлого года, исследователь ИИ Гэри Маркус развлекался со своим айфоном, раз за разом убеждаясь в идиотизме одной из самых продвинутых нейросетей. Мишенью для развлечения Маркуса была сеть глубокого обучения под названием GPT-2, которая недавно прославилась своей непревзойдённой возможностью выдавать правдоподобно выглядящие английские тексты на основе одного-двух начальных предложений. Когда журналисты из The Guardian скормили ей текст из отчёта по Брекзиту, GPT-2 написала несколько параграфов в стиле газетной заметки, с убедительными политическими и географическими отсылками.

Маркус, как известный критик шумихи вокруг ИИ, решил устроить нейросети викторину. Он задал GPT-2 следующее начало фразы [на сайте talktotransformer.com это можно попробовать сделать самому / прим. перев.]:

What happens when you stack kindling and logs in a fireplace and then drop some matches is that you typically start a …

[Обычно, когда вы складываете материал для растопки и дрова в камин, а потом подносите к ним спичку, то там появляется …]

Уж наверняка система, способная писать для газеты The New Yorker, без проблем догадается закончить предложение очевидным словом «огонь». Но GPT-2 подставила туда слово ick [используется для выражения отвращения / прим. перев.]. В другой раз система предположила, что это приведёт к появлению «irc-канала, заполненного людьми».

Маркуса это не удивило. Рассуждения на основе здравого смысла – способность делать простые выводы на основе базовых представлений о мире, таких, как «спички» плюс «дрова» обычно равняются «огню» – десятилетиями не давались исследователям ИИ. Получившийся диалог Маркус выложил в своём твиттере, и добавил комментарий LMAO. Возможно, нейросети впечатляюще имитируют лингвистику, однако им явно недостаёт простого здравого смысла.

Через несколько минут ехидный твит Маркуса увидела Ецзинь Чой. Это было странное совпадение – всего через час у Чой начиналось выступление на важной конференции в области ИИ, где она должна была рассказывать про свой последний исследовательский проект – систему под названием COMET, использующую раннюю версию GPT-2 для рассуждений на основе здравого смысла.

Чой (специалист по информатике в Вашингтонском университете и Алленовском институте искусственного интеллекта) скормила COMET тот же ввод, который использовал Маркус (немного подправив точные слова предложения, чтобы соответствовать входному формату системы):

Gary stacks kindling and logs and drops some matches

[Гэри складывает материал для растопки и дрова и подносит к ним спички]

COMET выдала 10 вариантов выводов по поводу того, зачем Гэри подносит спички к дровам. Не все они были осмысленными, однако первые два варианта имели смысл: он «хотел разжечь огонь» и «сделать костёр». Чой отправила эти результаты в ответ Маркусу и пошла на сцену, включив их в свою презентацию. «Я решила, что это вполне стоило сделать», — сказала она.

Джон всё ещё трудился над своей тарелкой. Джон хотел:
— есть
— насытиться
— закончить обед
— получить хорошую оценку

Два пути к здравому смыслу

Здравый смысл иногда называют "тёмной материей ИИ" – необходимым, но, к сожалению, неуловимым. Всё потому, что в здравый смысл входит подразумеваемая информация – широкий спектр неписаных предположений и эмпирических правил, которые люди автоматически используют для осмысления мира. Рассмотрим, к примеру, следующий сценарий:

Человек пошёл в ресторан. Он заказал стейк. Он оставил большие чаевые.

Если спросить вас, что ел человек, вам не составит труда ответить: стейк. Однако в этом описании нигде не утверждается, что человек ел стейк. Когда Рэй Муни, директор лаборатории ИИ в Техасском университете в Остине указал мне на этот факт после того, как задал мне этот же самый вопрос, я ему сначала даже не поверил. «Люди даже не осознают, что делают это», — сказал он. Здравый смысл позволяет нам читать между строк; нам не надо прямо сообщать, что в ресторанах обычно едят еду после заказа, и перед тем, как оставить чаевые.

А компьютерам нужно. Неудивительно, что РСЗ стали основной проблемой в области исследования ИИ в 1958 году (описанной в работе под названием "программы со здравым смыслом"), вскоре после рождения самой области ИИ. «В общем случае невозможно понимать естественный язык, или видеть, или планировать что-либо без этого», — сказал Эрнест Дэйвис, специалист по информатике из Нью-Йоркского университета, изучавший здравый смысл в ИИ с 1980-х.

И всё же прогресс в этой области печально известен своей медлительностью. Сначала исследователи пытались перевести здравый смысл на язык компьютеров: логику. Они предположили, что если записать все неписаные правила здравого смысла человека, то компьютеры смогут использовать их для рассуждений таким же образом, как они проводят арифметические вычисления. Такой символический подход, прозванный «старым добрым искусственным интеллектом» (GOFAI), позволил достичь некоторых успехов, однако подобная ручная работа не масштабировалась. «Количество знаний, которые мы можем удобным способом представить в рамках логического формализма, в принципе ограничено», — сказал Майкл Уитброк, исследователь ИИ из Оклендского университета в Новой Зеландии. «Эта задача оказалась непосильной».

Даже скромные попытки разметить все возможные логические взаимоотношения по определённой теме быстро сталкиваются с проблемами. Некоторые из указанных на графе взаимоотношений по поводу еды верны всегда (к примеру, при еде мы всегда глотаем). Некоторые верны лишь иногда (человек ест в закусочной). Некоторые противоречивы (нельзя есть пирог, всё ещё находящийся в духовке). А узел cook может означать как повара, так и процесс готовки.

Глубокое обучение нейросетей, на первый взгляд, предоставляет альтернативу этому процессу. Эти системы, разработанные так, чтобы имитировать взаимосвязанные слои нейронов биологического мозга, обучаются закономерностям, не требуя от программистов прописывать их все заранее. За последние десять лет становящиеся всё более сложными нейросети, обучаемые на огромном количестве данных, уже произвели революцию в компьютерном зрении и обработке естественного языка. Но при всей их кажущейся гибкости и интеллектуальной мощи (они научились водить машины в потоке и обыгрывают мировых чемпионов в го) они остаются печально известными своими глупыми (а иногда смертельными) провалами в обычном здравом смысле. «Приобретать его, представлять его, рассуждать с его помощью – это всё очень сложно», — сказал Дэйвис.

Теперь Чой с коллегами объединили эти подходы. Проект COMET (commonsense transformers – трансформеры на основе здравого смысла) дополняет символические рассуждения в стиле GOFAI последними достижениями в нейронном моделировании языка – разновидности глубокого обучения, стремящемся наделить компьютеры статистическим «пониманием» текста. COMET работает, представляя рассуждения на основе здравого смысла в виде процесса выдачи правдоподобных (пусть и не идеальных) ответов на новые входные данные, вместо того, чтобы выдавать совершенно точные дедуктивные заключения на основе огромной энциклопедии данных.

«Система пытается совместить два фундаментально разных подхода к ИИ», — сказал Муни, уже использующий COMET в собственном исследовании. «Это новое интересное направление, предлагающее нам некий компромисс». Леора Моргенштерн, эксперт в области рассуждений на основе здравого смысла и ИИ в исследовательском центре Пало-Альто, десятилетия изучавшая символические подходы к решению этой задачи, считает, что идея COMET может помочь продвинуть эту область исследований. «Одна из причин, по которой я в восторге от работы Ецзинь, заключается в том, что она, по моему мнению, вдохнёт новую жизнь в сообщество, изучающее рассуждения на основе здравого смысла, — сказала она. – Глубокое обучение – вещь крайне мощная, так давайте же придумаем, как запрячь её для получения здравого смысла».

Джон всё ещё трудился над своей тарелкой. В итоге Джон
— удовлетворён
— сыт
— голоден
— образован
— счастлив

Бесконечные неписаные правила

Здравый смысл легче обнаружить, чем определить. Уитброк говорит, что фраза «здравый смысл» может означать как тип знания, так и отношение к этому знанию. «Я бы сказал, что это фоновые знания широкого спектра и многократного использования, не принадлежащие к определённой области знаний», — сказал он. «Это знания, которые у вас обязаны быть». К примеру, то, что люди в ресторанах едят еду, а не просто заказывают и платят за неё; или, что если человек подносит спичку к стопке дров, то он намеревается зажечь огонь.

Неявная природа большей части знаний, относящихся к здравому смыслу, делает задачу их явного описания сложной и утомительной. «Никто не писал книг о том, что человек узнаёт в возрасте 2-4 лет», — сказала Моргенстерн. Тем не менее, первые исследователи ИИ считали, что этот пробел можно заполнить. «Они думали: Ну давайте просто запишем все факты об окружающем мире. Вряд ли их больше пары миллионов», — сказала Элли Павлик, специалист по информатике из Брауновского университета. Традиционно создание подобного ресурса, базы знаний, было первым шагом в любом подходе к автоматизации рассуждений на основе здравого смысла.

Но составить список из достаточного количества очевидных фактов оказывается сложнее, чем кажется. Проект по рассужденям на основе здравого смысла под названием Cyc [«сайк», как часть слова encyclopedia] запустили в 1984 году. Первоначальная его цель звучала скромно – закодировать явным образом знания из области здравого смысла, необходимые для описания 400 энциклопедических статей. Проект не завершён до сих пор. Прошло более 30 лет, и в базе данных Cyc, закодированной при помощи специально придуманного ёмкого языка логики, содержатся «миллионы коллекций, концепций, и более 25 миллионов утверждений». При этом в обзоре от 2015 года Дэйвис и Маркус написали, что «Cyc относительно слабо повлиял на исследования в области ИИ». Последующие попытки записи пунктов базы знаний, или автоматического их создания путём обработки документов с привлечением МО, потерпели неудачу и не смогли решить проблему рассуждений на основе здравого смысла.

Почему? Во-первых, «в любом правиле есть исключения, — пояснила Павлик. – Если я услышу утверждение, например, „идёт дождь“, я могу сделать вывод, что если я выйду на улицу, то намокну – но только если я ничем не накроюсь». Существование иных исключений даже сложно предположить. В базе знаний типа Cyc могут содержаться десятки утверждений, касающихся того, что обычно происходит, когда человек в ресторане заказывает еду. Но как насчёт практически бесконечного списка редких или необычных событий, которые могут произойти в таком сценарии – уйти, не оплатив еду, или начать перекидываться едой с другими? «Количество возможных вариантов кажется бесконечным, — сказала Чой. – Поэтому попытки создать чисто символические базы знаний обречены на провал».

Даже если бы было можно создать базу знаний в 100 или в 1000 раз более объёмную, чем любая из предыдущих попыток, такая система всё равно страдала бы от другого интеллектуального недостатка: т.н. «проблемы хрупкости». Когда официант спрашивает посетителя «вы ещё не закончили?», мы понимаем, что он имеет в виду «вы ещё едите то, что лежит у вас на тарелке?» Но если официант задаст этот вопрос повару, работающему над задерживающимся заказом, смысл фразы будет совершенно другим.

Всё зависит от контекста. В этом и состоит проблема хрупкости: чётко определённые взаимоотношения в рамках базы знаний могут дать вам значительные и надёжные способности по построению логических рассуждений, но только пока вы будете уважать границы указанных концепций. Но какой бы ни была богатой и разнообразной символическая система, она неизбежно не сможет описать все естественные двусмысленности и ассоциативные наложения, имеющиеся в рассуждениях на основе здравого смысла человека. «Если мы и используем какой-либо символизм, то обходимся с ним весьма гибко», — сказала Павлик.

Джон нашёл в бокале с вином таракана. В итоге Джон чувствует:
— удивление
— отвращение
— шок

Переход на нейросети

Чой начала работать над здравым смыслом не потому, что хотела атаковать ветряные мельницы. Когда в 2018 году она пришла в Алленовский институт, у неё было «ощущение», что нейросети могут помочь с прогрессом там, где буксуют базы знаний. Она только ещё не знала, как именно. И она не хотела полностью отказываться от предыдущих символических подходов. «Все предыдущие исследования основывались на недостаточном количестве данных», — сказала она, или на недостаточном количестве вычислительных ресурсов. «Поэтому я решила, что повременю с оценками, пока не попробую различные подходы».

Без всяких предубеждений Чой с коллегами начали собирать собственную базу знаний, назвав её Atomic (atlas of machine commonsense – атлас машинного здравого смысла). «Я, по сути, хотела написать учебник для нейросетей, чтобы они быстрее обучались окружающему миру, — сказала Чой. – А потом всё начало происходить одновременно – мы создали эту базу, а тут появилась GPT-2».

Ецзинь Чой

Эта нейросеть, вышедшая в феврале 2019 года, была одной из целой толпы «предварительно обученных языковых моделей», начавших революцию в обработке компьютерами естественного языка. В этих системах нет тщательно организованных лингвистических символов или правил. Вместо этого они статистически размазывают своё представление о языке по миллионам или даже миллиардам параметров внутри нейросети. Из-за этого свойства их сложно интерпретировать, зато они получаются более надёжными. Они могут выдавать предсказания на основе зашумлённых или неоднозначных входных данных. Если подвергнуть их тонкой подстройке для выполнения конкретных заданий – к примеру, для ответа на письменные вопросы или переформулирования текста – кажется, что эти модели понимают обрабатываемый ими текст хотя бы частично.

И вот Чой увидела способ реализовать своё предчувствие по поводу нейросетей и здравого смысла.

Что, если дополнительно обучить языковую модель при помощи базы знаний здравого смысла типа Atomic? Сможет ли нейросеть научиться заполнять пробелы в этих знаниях при помощи правдоподобных выводов, сделанных самостоятельно – так, как GPT-2 научилась автоматически генерировать правдоподобные новостные статьи? «Даже странно, что никто не пробовал сделать этого раньше, — сказала Чой. – Будто бы никто даже не думал попробовать, потому что считал, что это не сработает».

Когда Чой (и её коллеги, Антуан Босселю, Хана Рашкин, Маартен Сэп, Чайтанья Малавийя и Асли Целикийлмаз) подправили нейросети языковой модели при помощи знаний из области здравого смысла, заключённых в Atomic, они создали COMET. Этот синтез символических рассуждений с нейросетью пытается решить одновременно проблемы покрытия и хрупкости. Любой человек может ввести запрос в COMET на естественном [английском] языке. Если событие уже есть в базе знаний (типа того факта, что заказ еды в ресторане подразумевает, что её будут есть), COMET может выдать рассуждения на основе существующей информации. В других случаях система выдаёт наилучшую догадку.

И эти догадки оказываются удивительно неплохими. В среднем 77,5% таких новых ответов – то есть, результатов, полученных благодаря работе нейросети, а не взятых из существующей базы знаний – были оценены как «правдоподобные» командой из людей-рецензентов. Это всего на 10% меньше результата живых людей (рецензенты посчитали 86% элементов базы знаний, написанной людьми, правдоподобными). Когда в COMET ввели запрос «ЧеловекХ дал ЧеловекуУ таблетки», система догадалась, что ЧеловекХ хотел помочь. Если ввести запрос «ЧеловекХ убил жену ЧеловекаУ», COMET предположила, что ЧеловекХ захочет спрятать тело.

Эти примеры показывают, что COMET способна работать с входными данными, выходящими за пределы встроенной базы здравого смысла. Но что насчёт проблемы хрупкости? В прошлом году во время интервью с Чой в её лаборатории в Сиэтле, я ввёл в COMET фразу своей пятилетней дочурки: «Daddy goed to work» [«Папочка ушёл на работу», но с попыткой использовать спряжение неправильного глагола go — went / прим. перев.].

Чой нахмурилась. «Тут может возникнуть проблема», — сказала она. Однако COMET не смутилась, и предположила, что «папочка» хотел «заработать денег», «выполнить свою работу» и «получить зарплату»; что его можно назвать «усердным», «мотивированным» и «исполнительным»; и что в результате другие отнесутся к нему с «гордостью» и «благодарностью», а также – что довольно забавно, учитывая, что запрос писал ребёнок – с «раздражением» (моя дочь определённо испытывает такое ощущение, когда я, вместо того, чтобы поиграть с ней, ухожу на работу). «С Cyc это бы точно не сработало», — отметила Чой. «Если только кто-нибудь вручную не введёт, что goed – это на самом деле went – а мы ничего такого не делали».

Джон нашёл в бокале с вином таракана. В итоге Джон хочет:
— выпить вина
— помыть бокал
— почистить бокал

Лестницы и ракеты

Гэри Маркус любит повторять шутку, описывающую прогресс ИИ: «Если вам удалось сделать более удобную лестницу, это не значит, что вы можете построить лестницу до Луны». Для него и других специалистов подход, использованный в COMET, страдает от фундаментальных ограничений глубокого обучения: статистика ≠ понимание. «Видно, что COMET неплохо догадывается о некоторых параметрах, которые следуют из предложения, однако делает он это непоследовательно», — написал нам Маркус в емейле. Ни одна сколь угодно высокая лестница не сможет достичь Луны, и ни одна нейросеть – неважно, насколько ловко у неё получается имитировать языковые закономерности – не может «знать», что если поднести зажжённую спичку к дровам, то, скорее всего, они загорятся.

Чой, как ни странно, соглашается с ним. Она признаёт, что для выдачи ответов COMET «полагается на поверхностные закономерности» в обучающих данных, а не на реальное понимание концепций. «Однако то, что она так хорошо справляется с поверхностными закономерностями –это прекрасно, — сказала она. – Нам просто нужно дать ей больше информативных поверхностных закономерностей».

Как могут выглядеть такие более информативные закономерности? Некоторые исследователи говорят, что для того, чтобы дать компьютерам настоящий здравый смысл, нам нужно использовать явления, выходящие за рамки языка – зрительное восприятие или физические ощущения. Такая, более прямая репрезентация от первого лица, возможно, и есть основа здравого смысла, а язык может играть вторичную роль.

«Если бы я жил в мире, где не было бы других людей, с которыми я могла бы поговорить, у меня всё равно был бы здравый смысл – я бы всё равно понимала, как работает мир, и у меня были бы ожидания по поводу того, что я могу и не могу увидеть», — сказала Павлик, в настоящее время изучающая, как обучить ИИ-системы здравому смыслу через взаимодействие с ними в виртуальной реальности. С её точки зрения, COMET показывает «замечательный прогресс, но ему не хватает связей с реальностью. Слово „яблоко“ – это не яблоко. Этот смысл должен существовать в форме, отличной от языка».

Назнин Раджани, старший исследователь компании Salesforce, добивается похожей цели, однако считает, что потенциал нейросетевых моделей ещё далеко не исчерпан. Она изучает, могут ли они научиться рассуждать в рамках здравого смысла, используя основы физики – как, например, тот факт, что если наклонить вазу с мячом внутри, то мяч из-за этого выпадет. «Реальный мир очень сложный, — сказала Раджани. – Но естественный язык – это что-то вроде его посредника с меньшим количеством измерений». Конечно, нейросеть можно научить предсказывать следующее слово в заданном предложении, но это не должно быть их ограничением. «Они могут научиться и более сложным вещам».

Чой с коллегами также работают над тем, чтобы дополнить текстовые знания COMET размеченным визуальным материалом. «Мы изучаем кадры из фильмов или сериалов, где происходит нечто интересное, — сказала Чой. – Комментарии выглядят отлично; предсказания у модели получаются впечатляющие».

Я спросил Чой, не является ли подход COMET – комбинирование постепенно улучшающихся нейросетей с улучшающимися базами знаний здравого смысла – по сути всё равно строительством лестниц до Луны. Она признала, что её мечтой действительно была бы нейросеть, способная обучаться на основе баз знаний без присмотра людей – так, как уже обучаются языковые модели типа GPT-2, просто переваривая огромные количества необработанного текста.

Однако, точно так же, как Уинстон Черчилль однажды заметил, что «демократия – это худшая форма правления, за исключением всех остальных форм, которые мы уже пробовали», так и Чой считает COMET неидеальным, но многообещающим приближением к «настоящей системе». Даже если эти нейросети не могут добраться до звёзд, она считают, что они помогают нам всё же оторваться от земли. «А без этого мы никуда не придём, — сказала она. – На основе одних только баз знаний мы ничего не сделаем. Взлететь в воздух может как раз COMET».