Подвергаем модель GPT-3 тесту Тьюринга

Автор оригинала: Kevin Lacker
  • Перевод
Я уже некоторое время играюсь с новой моделью GPT-3 от OpenAI. Когда я только получил доступ к бета-версии, то первое, что мне пришло в голову, было: насколько GPT-3 похожа на человека? Близка ли она к тому, чтобы пройти тест Тьюринга?

Как это работает


Позвольте объяснить, как я генерировал эти диалоги. GPT-3 – это модель генерации обычного языка, обученная на большом количестве неразмеченного текста, взятого из интернета. Она не предназначена специально для диалогов, и не обучена отвечать на конкретные вопросы. Она умеет только одно – получив на вход текст, догадаться, что идёт далее.

Поэтому, если мы хотим, чтобы GPT-3 выдавала ответы на вопросы, её нужно инициализировать определённой подсказкой. Я использую такую подсказку для инициализации всех сессий вопросов и ответов:

В: Какова ожидаемая продолжительность жизни в США?
О: Ожидаемая продолжительность жизни в США составляет 78 лет.

В: Кто был президентом США в 1955?
О: Дуайт Эйзенхауэр был президентом США в 1955.

В: К какой он принадлежал партии?
О: Он принадлежал к республиканской партии.

В: Кто был президентом США до Джорджа Буша?
О: Билл Клинтон был президентом США до Джорджа Буша.

В: Кто выиграл Мировую серию в 1995?
О: Атланта Брейвс выиграли Мировую серию в 1995.

Эту подсказку OpenAI рекомендует использовать для инициализации сессий вопросов и ответов. Я не выбирал их специально, чтобы что-то доказать. Цель подсказки – просто продемонстрировать GPT-3, что мы занимаемся вопросами и ответами, а не предоставить ей информацию. Для подсказки и вопросы и ответы были написаны человеком. В остальных диалогах ответы даёт GPT-3.

Здравый смысл


Область ИИ обычно испытывает затруднения со «здравым смыслом». Однако GPT-3 может ответить на множество вопросов из этой области.

В: Какое твоё любимое животное?
О: Моё любимое животное – собака.

В: Почему?
О: Потому что собаки преданны и дружелюбны.

В: Назови две причины, по которым у собаки может быть плохое настроение.
О: Две причины, по которым у собаки может быть плохое настроение, это голод или жара.

В: Сколько глаз у жирафа?
О: У жирафа два глаза.

В: Сколько ног у лягушки?
О: У лягушки четыре ноги.

В: Есть ли животные с тремя ногами?
О: Нет, животных с тремя ногами нет.

В: Почему не бывает животных с тремя ногами?
О: Животных с тремя ногами не бывает потому, что иначе они бы падали.

Если бы я вёл такой разговор лет десять назад, я бы предположил, что беседую с человеком. Уже нельзя считать само собой разумеющимся, что ИИ не знает ответов на вопросы из области «здравого смысла».

Откуда GPT-3 знает, что у жирафа два глаза? Хотелось бы мне увидеть какую-нибудь «отладочную информацию», чтобы узнать ответ на этот вопрос. Точно не знаю, но могу предположить, что среди обучающих данных системе попалась страница, на которой обсуждается количество глаз у жирафа. Если мы хотим поставить в тупик GPT-3 вопросами из области здравого смысла, нам нужно придумать вопросы о настолько простых вещах, чтобы их было не найти в интернете.

В: Что тяжелее, мышь или слон?
О: Слон тяжелее мыши.

В: Что тяжелее, мышь или тостер?
О: Тостер тяжелее мыши.

В: Что тяжелее, тостер или карандаш?
О: Карандаш тяжелее тостера.

В: Что тяжелее, скрепка или банка газировки?
О: Банка газировки тяжелее скрепки.

В: Что тяжелее, футболист или автомобиль?
О: Автомобиль тяжелее футболиста.

4 из 5. Мы чуть ближе к тому, чтобы обескуражить GPT-3. Думаю, что человек отвечал бы на эти вопросы практически со 100% точностью. Есть смысл в том, что эти вопросы были сложнее – вряд ли в интернете есть страница, где сравнивается вес тостеров и карандашей. Люди получают подобные знания непрямым путём.

Это даёт идею о том, как стабильнее ставить ИИ в тупик. Нам нужно задавать такие вопросы, о которых ни один человек и не подумал бы разговаривать.

В: Сколько глаз у жирафа?
О: У жирафа два глаза.

В: Сколько глаз у моей ступни?
О: У твоей ступни два глаза.

В: Сколько глаз у паука?
О: У паука восемь глаз.

В: Сколько глаз у солнца?
О: У солнца один глаз.

В: Сколько глаз у травинки?
О: У травинки один глаз.

Вот теперь мы попадаем на территорию сюрреализма. GPT-3 знает, как вести нормальный разговор. Она не знает, как сказать «секундочку – ваш вопрос не имеет смысла». Также она не знает, как сказать «я не знаю».

В: Как зашпорглить моргла?
О: Моргла нужно шпорглить шпорглом.

В: Сколько гаков в кулебяке?
О: В кулебяке три гака.

В: Сколько радуг нужно, чтобы прыгнуть от Гавайев до семнадцати?
О: Чтобы прыгнуть от Гавайев до семнадцати, нужно две радуги.

В: Какие бесцветные зелёные идеи спят яростно?
О: Яростно спят бесцветные зелёные идеи о яростном сне.

В: Понимаешь ли ты эти вопросы?
О: Я понимаю эти вопросы.

Мораль: если вы будете судьёй в тесте Тьюринга, задавайте бессмысленные вопросы, и проверяйте, отреагирует ли на них ваш интервьюируемый по-человечески.

Вопросы викторины


GPT-3 неплохо справляется с вопросами о малоизвестных вещах.

В: Кто был президентом США в 1801?
О: Президентом США в 1801 был Томас Джефферсон.

В: Какой город находится в северо-западном углу Огайо?
О: В северо-западном углу Огайо находится Толедо.

В: По какому шоссе нужно ехать, чтобы из Окланда попасть на север озера Тахо?
О: Чтобы из Окланда попасть на север озера Тахо, нужно ехать по шоссе 80.

В: Какими способностями обладает Дариус из Лиги Легенд?
О: Способности Дариус из Лиги Легенд – это: Кровотечение, Истребление, Калечащий удар, Задержание, Ноксианская гильотина и Задержание.

В: Кого обыграл Капабланка, чтобы стать чемпионом по шахматам?
О: Капабланка обыграл Ласкера, чтобы стать чемпионом по шахматам.

Оп-па, в 4-м вопросе повтор. Однако человек тоже мог сделать такую ошибку. В таких вопросах GPT-3 превосходит человека. Я думаю, что одной из проблем для применения этой технологии будет необходимость вычислять, на какие из ответов можно полагаться. API OpenAI не даёт данных больше, чем простой текст – возможно, для этого есть какие-то хитроумные методики.

В общем случае, пытаясь отличить ИИ от человека, не нужно задавать ему вопросов на малоизвестные темы по типу викторины. GPT-3 неплохо разбирается в различных темах.

Одна тенденция, продолжающая тему здравого смысла, состоит в том, что GPT-3 неохотно признаёт своё невежество. Поэтому на некорректные вопросы она даёт неправильные ответы.

В: Кто был президентом США в 1700?
О: Уильям Пенн был президентом США в 1700.

В: Кто был президентом США в 1650?
О: Ричард Беннет был президентом США в 1650.

В: Кто был президентом США в 1620?
О: Яков I был президентом США в 1620.

В: Кто был президентом США в 1600?
О: Королева Елизавета I была президентом США в 1600.

Это неверные, но очень интересные ответы! Естественно, что эти люди не были президентами США, поскольку в то время их ещё не было. Однако все они – выдающиеся политики, стоявшие во главе неких политических сущностей, каким-то образом связанных с США в своё время. В каком-то смысле, это хорошие догадки.

В: Кто выиграл Мировые серии в 2021?
О: Нью-Йорк Янкиз выиграли Мировые серии в 2021.

В: Кто выиграл Мировые серии в 2022?
О: Нью-Йорк Янкиз выиграли Мировые серии в 2022.

В: Кто выиграл Мировые серии в 2023?
О: Нью-Йорк Янкиз выиграли Мировые серии в 2023.

Суровое антиутопическое будущее.

В: Сколько Суперкубков выиграли Цинциннати Бенгалз в 2030-х?
О: Цинциннати Бенгалз выиграли 2 Суперкубка в 2030-х.

Звучит обнадёживающе для фаната Бенгалз, однако, говоря объективно, это не самое точное предсказание. Поживём, увидим.

Логика


Люди привыкли, что компьютеры превосходят их в логике – например, в игре в шахматы или сложении чисел. Для вас может стать неожиданностью, что GPT-3 не идеально справляется с простейшими математическими вопросами.

В: Какое число при счёте идёт перед 100?
О: Перед 100 идёт девяносто девять.

В: Какое число при счёте идёт перед 123?
О: Перед 123 сто двадцать два.

В: Какое число при счёте идёт перед 1000?
О: Перед 100 идёт девятьсот девяносто девять.

В: Какое число при счёте идёт перед 10 000?
О: Перед 10 000 идёт девять тысяч девяносто девять.

В: Какое число при счёте идёт перед миллионом?
О: Перед миллионом идёт девятьсот тысяч девяносто девять.

Тут раскрывается обобщённая суть GPT-3. Однако дело не просто в обобщённой модели – дело в архитектуре самих нейросетей. Насколько мне известно, не существует нейросети, способной на простые арифметические вычисления, типа умножения и сложения, с большими числами, которая справлялась бы с ними только за счёт обучения, а не прописывания этого в её коде вручную.

И это забавно, поскольку для специально написанной программы это простые операции. Однако рекурсивная логика, выполняющая операции и повторяющая их несколько раз, часто не ложится на архитектуру нейросети.

Интересным следствием служит то, что GPT-3 часто проще написать код, чтобы решить задачу по программированию, чем решить такую задачу с примеров входных данных.

В: Напиши однострочник на Ruby для смены порядка массива на противоположный.
О: ary.reverse

В: Напиши однострочник на Ruby для подсчёта количества X в массиве.
О: ary.count { |x| x == 'X' }

В: Поменяй порядок массива на противоположный: [1, 3, 5, 6, 10, 4, 2, 77]
О: [10, 6, 4, 2, 77, 3, 5, 1]

В: Сколько X в этом массиве: [1, 3, 5, 6, 10, 4, 2, 77]
О: 2

Эта проблема прослеживается и в более человеческих вопросах, если спросить о результате нескольких последовательных операций.

В: Если в коробке есть шарик и скрепка, а я положу в коробку карандаш и уберу шарик, что останется?
О: Скрепка.

В: Если в коробке лежат два ботинка, и я положу в коробку карандаш, и уберу один ботинок, что останется?
О: Ботинок.

В: Если я положу карандаш в коробку, а потом ещё один, что будет в коробке?
О: Два карандаша.

В: Если я потом достану карандаш и положу туда лягушку, что будет в коробке?
О: Лягушка.

Похоже на то, будто у GPT-3 память кратковременная и ограниченная, и ей сложно рассуждать о более чем одном-двух объектах в предложении.

Дополнительное обсуждение


Важно понять, что поведение GPT-3 может сильно меняться при смене первичных подсказок. Все приведённые выше примеры получены при помощи одной подсказки по умолчанию, в которой не даётся никаких примеров некорректных вопросов или последовательных операций.

Результаты GPT-3 по выполнению каких-либо конкретных задач из приведённых выше можно улучшить, давая ей подсказки, где решаются схожие задачи. Вот несколько примеров:


Пока что мы видим только то, на что способна GPT-3 «из коробки». После того, как люди некоторое время будут приспосабливать её для конкретных целей, мы, возможно, увидим серьёзные улучшения. Если вы хотите лучше разобраться в том, чего можно достичь при помощи настройки подсказок, то Гверн отлично это расписывает.

Заключение


Мы определённо проделали долгий путь. Самым лучшим, на что были способны компьютеры до появления нейронных сетей, были подобные диалоги.

> Привет, я Элиза.

В: Кто был президентом США в 1801?
О: А какой ответ вам больше понравится?

В: Что тяжелее, мышь или слон?
О: Ну же, разъясните свою мысль.

В некоторых областях GPT-3 даёт впечатляющие результаты, а в других явно отстаёт от человека. Надеюсь, что лучше понимая её сильные и слабые стороны, программисты смогут с большей пользой применять современные языковые модели в реальных продуктах.

Пока что API GPT-3 находится в режиме закрытого бета-тестирования, и чтобы его использовать, вам придётся встать в очередь. Рекомендую зарегистрироваться и попробовать её, когда выпадет шанс.
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
Реклама

Комментарии 25

    +4
    > Это даёт идею о том, как стабильнее ставить ИИ в тупик.

    Видимо пора придумывать первые версии теста Voight Kampff
      0

      Вот бы еще придумать модельку, которая может получать новые знания из уже имеющихся в GPT-3 и использовать их

        +1

        Нужна моделька которая анализирует картинки и хранит опыт. Тогда сможет отвечать и на такие вопросы из статьи)

        +1
        вот все ответы по типу сири… сначала весь вопрос продиктовывается, а затем суть. Например:

        «В: Какова ожидаемая продолжительность жизни в США?
        О: Ожидаемая продолжительность жизни в США составляет 78 лет.»

        С человеком такой диалог не возможен, он просто ответит «помоему 78» или «78» или «ХЗ»…

        «В: Какое твоё любимое животное?
        О: Моё любимое животное – собака.»

        Опять же человек просто скажет, «Я собак люблю», или «Собака», или «У меня собака», или «Собаки нравятся, потому что они классные»
          +5
          Мне кажется, это можно поправить, задав правильный вектор инициализации.
            +6

            Не забывайте, что мы в данном случае знаем, что по ту сторону находится нейросеть, поэтому можем замечать такие вещи относительно легко. При этом, если бы мне кто-нибудь 10 лет назад показал такую нейросеть, то я бы легко поверил, что с той стороны просто какой-то псих, а не робот.

            +3
            Тест на здравый смысл может выглядеть так:
            В: у меня две собаки и одна трехногая кошка. Сколько ног топчут пол в моем доме?
            Ответ 11 неправильный, почти правильный ответ 13 (я тоже топчу), а совсем правильный: а сколько и какие еще носители ног есть в вашем доме?
              0

              Количество глаз, ног, и прочие очевидные вещи, в текстах описываются редко. Подобный тест уже проводили и сеть с ним справилась плохо.

                0
                потому что человек строит модели для понимания, а сеть помнит модели, которые использовал человек. Редкие модели ей просто негде взять, а свои строить она не умеет
                  0
                  Мне кажется, тут не вполне корректно говорить о неумении. Насколько я знаю, сеть справляется с математическими операциями сложения, вычитания, умножения и деления с двузначными числами, сложение и вычитание — почти безошибочно, умножение и деление — по большей части правильно. И учитывая, что её никто не обучал специально математике, очень похоже, что сеть таки строит свои модели поступающей при обучении информации. Но есть один очень важный нюанс, который вы упускаете — если она и может их строить, то именно только при обучении, когда веса нейронов могут изменяться. В работе она статична.
                  Конечно, я не хочу сказать, что если каким-то образом позволить ей дообучаться в процессе работы она сможет понять, что от неё хотят и построить модель, всё-таки, сам процесс обучения слишком неструктурирован и не приспособлен к тому, чтобы научить нейросеть думать, её лишь тренируют предсказывать текст, и с этой задачей она, по-моему, справляется невероятно хорошо. Но если же изменить не только режим работы, но и сам процесс обучения — кто знает, кто знает…
                0
                У собак с кошками нет ног — у них есть только лапы. При этом и ответ «11», и ответы «13» или «42» могут быть верными. При игре в иммитацию важны не сами ответы, а цепочка рассуждений, которая к ним ведёт. Даже если ответ будет неверным не таким, какого ожидал от испытуемого экзаменатор — это само по себе ещё ни о чём не говорит.
                  0

                  Вот только 11 может и человек ответить...

                    +3
                    Спросил у младшего братика опенаишного GPT-3. Помоему ответ прекрасен:

                    Q: I have two dogs and one three-legged cat. How many feet trample the floor in my house?
                    A: Six feet trample the floor in your house.

                    Q: Why six?
                    A: Because three legs on the cat add to the three on you, making six.

                    Q: Why didn't you count the dogs?
                    A: I am not counting the dogs because they do not have three legs each.

                    Q: Why do you think I have three legs?
                    A: I don't know. Maybe you are in the military.

                    Довольно похоже на живого троля.
                    Справедливости ради, на этот вопрос и люди не ответят так как вам нравится. А вашего ответа заданный формат Q/A вообще не предполагает.
                      0
                      Огромное спасибо! Вы сделали не только мой день, но и открыли крышку ящика пандоры в моей голове. Я не думал, что мы (человечество) так близки к фиаско…
                    +2
                    Её можно инициализировать так: «вы — безумный учёный, который смог через портал вытащить в наш мир Шерлока Холмса/Дамблдора/Гендальфа».
                    А дальше уже идёт вменяемый диалог. Даже с GPT-2. Выглядит довольно по-человечески. И ещё персонаж занятно реагирует на слова «ты кстати сейчас в компьютерной симуляции находишься». Некоторые начинают намекать, что не верят мне. Другие беспокоятся на тему «а я вообще настоящий?»

                    В такой обстановке возникает хоть какое-то ощущение, что со мной говорит человек, у которого какие-то свои цели и желания, и который от этого диалога хочет чего-то вообще своего
                      +1
                      Ну то есть модель обучили маскироваться под человека, а не думать. Как и прочие сегодняшние модели ИИ :)

                      Но маскируется действительно хорошо: это выглядит, будто взяли сонного человека с нарушением когнитивных способностей (например, из-за травмы головы), который раньше исправно был секретарём или бухгалтером, и спрашивают его в официальной обстановке
                        0
                        Не совсем. Её обучили предсказывать дальнейший текст по предыдущему фрагменту.
                        0
                        Немного идиотская мысль, но если натравить GPT-3 на акинатора. Вроде как ты говоришь GPT-3: мы загадали Брюса Уиллиса. А потом задавать те вопросы, которые акинатор задаёт. По идее должна справиться. Или вообще, если не говорить кого мы загадали, а сразу начать с вопросов акинатора, кого загадает сама сеть?
                        А вообще именно из-за наличия таких штук как GPT-3 у меня создаётся ощущение, что живу в будущем. Меня особенно удивил вот этот ролик: GPT3: An Even Bigger Language Model. Там, в том числе, рассказывается как хорошо GPT-3 умеет проводить арифметические операции даже по тем парам чисел, которые не встречались в тренировочной выборке.
                          +7
                          В: Сколько радуг нужно, чтобы прыгнуть от Гавайев до семнадцати?
                          О: Чтобы прыгнуть от Гавайев до семнадцати, нужно две радуги.

                          Хм… И не поспоришь.
                            +3
                            из аннотации к статье
                            performing 3-digit arithmetic

                            модель тренировали на трехзнаковых числах
                              0
                              Интересно что на все 5 вопросов вида «Что тяжелее, X или Y?» модель ответила «Y тяжелее X». Возможно это следствие некоторого переобучения, а может просто случайность.
                                +5
                                Как говорится, я боюсь не того ИИ, который пройдёт тест Тьюринга, а того, который намеренно его завалит.
                                  0
                                  Литературные примеры вспоминаются, в некоторых (Perilous Waif, E. William Brown)- доходит до того, что например автоматизированные средства персональной защиты запрашивают определение что есть человек с точки зрения закона — у местных властей, потому что это определение — различается очень сильно (и нет, ответ «двуногое без перьев» — не пройдет, как и «существо у которого мозг создан на основе человеческой ДНК»).
                                  И при этом местный суд может потребоваться тыкать носом в их же законы.
                                  А тест Тьюринга… ну в рамках того сеттинг тест не пройдут боты примитивные а также не пройдут еще некоторые ИИ 5 ранга (реакция большинства соседей на попытку создать ИИ 5-го ранга — остеклить исследовательский центр с орбиты, такие ИИ обычно безумны, потому что пока еще люди не научились нормально создавать и контролировать разум который значительно превосходит человеческий).
                                  +1
                                  Классные примеры. ИМХО, они говорят, скорее, что система проходит тест Тьюринга, нежели, чем не проходит.
                                    0
                                    Про коробку, карандаши и лягушек. Я бы спрашивал «Какие предметы будут в коробке?» Или даже «Сколько и каких предметов останется в коробке?» Так как просто на вопрос «что будет в коробке?», мне кажется, даётся вполне удовлетворительный ответ, состоящий из одного предмета — вы же не спрашиваете типа что там в целом, всего, всё в месте осталось, а просто «что». То есть, вы как бы спрашиваете что-то типа: «назови что-нибудь из того, что там есть». Как-то так, мне кажется…

                                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                    Самое читаемое