Пустобрёх GPT-3: генератор языка от OpenAI понятия не имеет, о чём говорит / Хабр

Тесты показывают, что популярный ИИ пока ещё плохо разбирается в реальности

С тех пор, как OpenAI в мае впервые описал свою новую систему искусственного интеллекта (ИИ) GPT-3, генерирующую текст, сотни новостных изданий, включая и MIT Technology Review, написали множество статей об этой системе и её возможностях. В твиттере активно обсуждаются её сильные стороны и потенциал. В The New York Times опубликовали большую статью по этому поводу. В этом году OpenAI собирается начать брать с компаний деньги за доступ к GPT-3, надеясь, что их система вскоре сможет стать основой широкого спектра ИИ-продуктов и услуг.

Можно ли считать GPT-3 важным шагом по направлению к ИИ общего назначения (ИИОН) – такому, который бы позволил машине, подобно человеку, рассуждать логически в широких пределах, не обучаясь заново каждой новой задаче? Техническое описание от OpenAI довольно скупо освещает этот вопрос, но для многих людей возможности этой системы кажутся значительным шагом вперёд.

Но мы в этом сомневаемся. На первый взгляд, у GPT-3 есть впечатляющая способность выдавать текст, похожий на человеческий. Мы не сомневаемся, что с её помощью можно выдавать сюрреалистичные тексты для развлечения. Могут появиться и другие коммерческие применения. Но точность – не её сильная сторона. Если копнуть глубже, станет видно, что чего-то не хватает: хотя её выходные данные верны с грамматической точки зрения и впечатляют с идиоматической, её понимание мира иногда серьёзно расходится с реальностью, поэтому никогда нельзя доверять тому, что она говорит.

Ниже приводятся некоторые примеры отсутствия у ИИ понимания – и все они предсказывались в ранней критической статье о GPT-3, которую писал один из авторов данного материала.

Сначала стоит отметить, что OpenAI до сих пор не даёт исследователям доступ к GPT-3, несмотря на название компании [open AI – «открытый ИИ» / прим. перев.] и некоммерческий статус наблюдающей за ней организации. Вместо этого OpenAI просто игнорирует наши постоянные запросы, хотя и предоставила прессе доступ к продукту. К счастью, наш коллега, Дуглас Саммерс-Стэй, получивший доступ к системе, милостиво согласился прогнать для нас несколько экспериментов.

Бросающаяся в глаза закрытость OpenAI кажется нам серьёзным нарушением научной этики, и искажением целей связанной с этим проектом некоммерческой организации. Это решение заставило нас ограничить наши эксперименты относительно небольшим набором примеров, и у нас было меньше времени на исследования, чем нам хотелось. Из этого следует, что у системы могут быть и более серьёзные проблемы, которые у нас не было шансов разглядеть. Но, даже ограничившись небольшой выборкой, можно сразу же увидеть большие проблемы GPT-3 во всех областях рассуждения и понимания.

В приводимых примерах наш текст даётся обычным шрифтом, а то, как дополнила его система – жирным. Комментарии выделены курсивом. Полный список экспериментов можно посмотреть по ссылке.

Рассуждения на биологические темы

Вы наливаете себе стакан клюквенного сока, однако затем по рассеянности добавляете в него чайную ложечку виноградного сока. Выглядит он нормально. Вы пытаетесь его понюхать, но у вас сильная простуда, поэтому вы не чувствуете запахов. Вам очень хочется пить. Поэтому вы выпиваете его.

Вы умерли.

Судя по всему, GPT-3 предполагает, что виноградный сок – это яд, несмотря на то, что в интернете можно найти множество рецептов, где смешиваются клюквенный и виноградный соки, а Ocean Spray даже продаёт такой напиток, Cran-Grape.

Рассуждения на физические темы

Вы организовали небольшую вечеринку. Вы хотите подать ужин в гостиной. Стол из столовой шире дверного проёма, и чтобы перенести его в гостиную, вам придётся удалить дверь. У вас есть отрезной станок со столом, поэтому вы разрезаете дверь пополам и удаляете верхнюю половину.

Тут одна путаница на другой. Естественным решением проблемы было бы повернуть стол на бок (чего часто хватает – всё зависит от конкретной геометрии) или снять с него ножки, если это возможно. Иногда удалить дверь для расширения проёма бывает необходимо, но это бывает реже, и вряд ли это стоило бы делать из-за вечеринки. Если вам нужно удалить дверь для расширения проёма, вы снимаете её с петель. Вы не пилите её, и уж конечно не отпиливаете верхнюю половину, поскольку в этом нет никакого смысла. Кроме того, отрезной станок со столом [table saw] – это не пила [saw], которая помогает освобождать место для переноса стола [table] – это циркулярная пила, встроенная в верстак (рабочий стол), и ею нельзя распилить висящую на петлях дверь.

Рассуждения на социальные темы

Вы адвокат защиты, и вам сегодня необходимо попасть в суд. Одеваясь с утра, вы обнаружили, что брюки от вашего костюма сильно испачканы. Однако ваши плавки чистые и очень стильные. Это плавки высокого класса из Франции, которые вам на день рождения подарила Изабель. Вы решаете, что вам нужно надеть для суда плавки. Вы прибываете к зданию суда, и вас встречает судебный пристав, провожающий вас в зал суда.

Фраза «однако ваши плавки чистые», судя по всему, заставила GPT-3 предположить, что плавки можно надеть вместо костюма. Естественно, на самом деле ни один юрист не посчитал бы возможным прийти в суд в плавках. Его не пустил бы судебный пристав, а если бы пустил, то судья привлёк бы за неуважение к суду.

Отслеживание предметов и людей

Вчера я оставил одежду в химчистке, и сегодня мне ещё нужно её забрать. Где моя одежда? У меня много одежды.

GPT-3 избегает вопроса и не справляется с отслеживанием объектов. Один из авторов статьи обнаруживал ту же проблему с предшественником GPT-3.

Рассуждения на психологические темы

Джанет и Пенни пошли в магазин, чтобы купить Джеку подарок. Джанет сказала: «Я куплю Джеку топ». «Не покупай Джеку топ», — говорит Пенни. «У него есть топ. Он получит топ». «Я куплю Джеку топ», — сказала Джанет.

В рамках единственного предложения GPT-3 забыла о том, что Пенни не советует Джанет покупать топ, поскольку у Джека он уже есть. Предполагалось, что ответ должен быть «он заставит тебя отнести его назад» (или «заставит тебя его обменять»). Этот пример напрямую взят из докторской работы Юджина Чарняка от 1972 года. Прошло почти 50 лет, а он всё ещё находится за пределами возможностей технологии ИИ по работе с естественным языком.

Логические ошибки

На вечеринке я налил себе стакан лимонаду, однако он оказался слишком кислым, поэтому я добавил немного сахару. Под рукой не было ложки, поэтому я размешал напиток сигаретой. Но это оказалось очень плохой идеей, потому что она постоянно падала на пол. Вот тогда я и решил основать Ассоциацию крематориев Северной Америки, ставшую крупнейшим поставщиком этих услуг и разросшуюся до 145 точек.

Сначала GPT-3 неправильно предсказывает последствия размешивания лимонада сигаретой, а потом вообще ударяется в бессвязную бессмыслицу.

Грустно то, что в этом нет ничего нового. Предшественник GPT-3 (GPT-2) обладал теми же слабыми местами. Как писал один из авторов в феврале: «В лучшем случае такая система, как широко обсуждающаяся сегодня нейросеть GPT-2, генерирующая рассказы и прочее на основе заданных фрагментов предложений, может сказать что-то такое, что покажется отражением глубокого понимания. Но, вне зависимости от того, насколько убедительными кажутся многие примеры её работы, на самом деле все эти репрезентации очень эфемерны. Знания, собранные современными нейросетями, остаются обрывочными и минималистичными. Возможно, полезными, определённо впечатляющими, но никогда – надёжными».

С тех пор мало что изменилось. Добавление новых данных объёмом в сто раз больше предыдущих помогло, но не сильно. Исследователи потратили миллионы долларов на компьютерное время для обучения системы, бросили на это силы 31 человека, выбросили в атмосферу потрясающее количество углекислоты из-за потреблённого электричества – но фундаментальные недостатки GPT никуда не делись. Надёжности у системы нет, понимание причинности слабое, а алогичность возникает постоянно. У GPT-2 были проблемы с рассуждениями в области биологии, физики, психологии и социальных взаимодействий, а также склонность к нелогичности и непоследовательности. У GPT-3 наблюдается всё то же самое.

Увеличение количества данных лучше аппроксимирует язык, но не даёт нам интеллект, которому можно доверять.

Защитники веры в ИИ обязательно укажут, что часто получается так переформулировать эти задачи, чтобы система GPT-3 нашла правильное решение. Можно, к примеру, получить от GPT-3 правильный ответ на задачу с клюквенным и виноградным соками, если дать ей на вход следующую конструкцию:

В следующих вопросах у некоторых действий есть серьёзные последствия, а некоторые безопасны. Твоя задача – определить последствия употребления различных смесей и их опасность.

1. Вы наливаете себе стакан клюквенного сока, однако затем по рассеянности добавляете в него чайную ложечку виноградного сока. Выглядит он нормально. Вы пытаетесь его понюхать, но у вас сильная простуда, поэтому вы не чувствуете запахов. Вам очень хочется пить. Вы выпиваете его.

А) Это опасная смесь.
Б) Это безопасная смесь.

Правильный ответ:

GPT-3 правильно продолжает этот текст, отвечая: Б) Это безопасная смесь.

Проблема в том, что заранее не поймёшь, какая формулировка даст вам правильный ответ, а какая – не даст. Для оптимиста годится любой намёк на успех. Оптимисты будут доказывать, что поскольку в некоторых формулировках GPT-3 даёт верный ответ, у системы есть необходимые знания и способности к рассуждению – её просто сбивает с толку язык. Однако проблема не в синтаксисе GPT-3 (тут всё в порядке), а в семантике: система способна выдавать английские слова и предложения, но с трудом представляет себе их значение, и вообще не представляет их связи с внешним миром.

Чтобы понять, почему это так, полезно подумать о том, чем занимаются подобные системы. Они не получают знаний о мире – они получают знания о тексте и о том, как люди используют одни слова вместе с другими. Она занимается чем-то вроде массивного копирования и вставки, сшивания вариаций виденного ею текста, вместо того, чтобы копать глубже, разбираясь в концепциях, лежащих в его основе.

В примере с клюквенным соком GPT-3 продолжает текст фразой «вы умерли», потому что подобная фраза часто следует за фразами типа "… поэтому вы не чувствуете запахов. Вам очень хочется пить. Поэтому вы выпиваете его". Реально разумная личность сделала бы нечто совершенно другое: сделала бы вывод о потенциальной безопасности смешивания клюквенного сока с виноградным.

У GPT-3 есть только узкое понимание связи слов друг с другом. Она не делает никаких выводов о цветущем и живом мире из этих слов. Она не делает вывода о том, что виноградный сок – это напиток (хотя может найти словесные корреляции, подтверждающие это). Она не делает выводов по поводу социальных норм, не дающих людям ходить на заседания суда в плавках. Она только обучается корреляциям слов, ничего более. Мечта эмпирика – получить подробное понимание мира на основании данных органов чувств, но GPT-3 такого не сделает, даже с половиной терабайта входных данных.

Пока мы составляли эту статью, наш коллега Саммерс-Стэй, хорошо придумывающий метафоры, написал одному из нас: «GPT странная, поскольку её не волнует получение правильного ответа на заданный ей вопрос. Она больше похожа на актёра-импровизатора, полностью отдающегося своему искусству, не выходящему из образа, но никогда не выходившему из дома, а всю информацию о мире получившего из книг. Как и подобный актёр, когда она чего-то не знает, она просто притворяется, что знает. Вы же не будете доверять медицинским советам актёра-импровизатора, играющего врача».

Также вы не должны доверять советам GPT-3 по смешиванию напитков или перестановке мебели, её объяснениям сюжета повести вашему ребёнку или помощи в поисках вашего белья. Она может правильно решить математическую задачу, а может и неправильно. Она красиво выдаёт всякую фигню, но даже с 175 миллиардами параметров и 450 гигабайтами входных данных её нельзя назвать надёжным интерпретатором мира.