Голосовые помощники не учатся на тесте Тьюринга


    Три года назад чат-бот Соня Гусева стала победителем первого теста Тьюринга на русском языке. После трёх минут разговора, 47% судей приняли её за человека. Сегодня голосовые ассистенты Яндекса и Google соревнуются в умении общаться на великом и могучем. Конечно, помощник не обязан имитировать человека и не должен никого обманывать, но есть ли чему поучиться Алисе и Ассистенту у Сони?


    Под катом авторские комментарии к реальному диалогу чат-бота с судьёй в тесте Тьюринга, а также сравнительный анализ поведения современных голосовых помощников.


    Логи диалогов с теста Тьюринга 2015 года доступны всем желающим. В качестве примера я выбрал такой:


    И - бот, С - судья

    2015-06-03 12:04:13 И: я Соня Гусева, здраствуйте!
    2015-06-03 12:04:25 С: Привет
    2015-06-03 12:04:25 И: можно вас спросить кое-что?
    2015-06-03 12:04:43 С: Конечно
    2015-06-03 12:04:43 И: кто вы по знаку зодиака?
    2015-06-03 12:04:54 С: Скорпион
    2015-06-03 12:04:54 И: водные знаки — это люди, которые могут многое :)))
    2015-06-03 12:05:24 С: У каждого человека есть потенциал
    2015-06-03 12:05:24 И: хм… а как вас зовут?
    2015-06-03 12:05:37 С: Евгений
    2015-06-03 12:05:37 И: будем занкомы, Евгений!
    2015-06-03 12:05:54 С: а как тебя зовут?
    2015-06-03 12:05:54 И: Соня, я же сразу сказала :)))
    2015-06-03 12:06:18 С: Да, совсем плохо с памятью
    2015-06-03 12:06:18 И: ну, хорошо
    2015-06-03 12:06:35 С: А чем ты занимаешься, Анна?
    2015-06-03 12:06:35 И: не Анна, а Соня!!!
    2015-06-03 12:06:53 С: Но все равно чем же ты занимаешься?
    2015-06-03 12:06:53 И: ещё не решила
    2015-06-03 12:07:03 С: Учишься?
    2015-06-03 12:07:03 И: щас каникулы, а так я учусь в школе 506, перешла в 8 класс


    Для анализа и сравнения Сони Гусевой, Алисы и Google Ассистента я пользуюсь критериями ЛЁГКОГО диалога. По каждому критерию расставляю ботов от 1 до 3 места, а затем суммирую результаты.


    Л — Личностный


    Соня Гусева создана специально для теста Тьюринга. И как у большинства подобных чат-ботов, у неё есть не только имя и фамилия, но и подробная легенда, включающая информацию об увлечениях, членах семьи, вплоть до конфликтов со школьными учителями (по легенде Соне 12 лет и она ходит в школу). Вы сможете отличить её по особой манере ставить смайлики и игнорировать некоторые правила письменной речи.


    2015-06-03 12:05:54 С: а как тебя зовут?
    2015-06-03 12:05:54 И: Соня, я же сразу сказала :)))

    У Алисы тоже есть своя легенда, хоть и несколько ограниченная. Оно обладает своеобразным чувством юмора. Ещё, говорят, она влюблена в Константина Хабенского.



    А вот личность Google Ассистента менее ярко выражена: имени у него действительно нет.



    По личностному критерию места распределяются следующим образом: 1 — Соня, победитель теста Тьюринга; 2 — Алиса; 3 — Google Ассистент.


    Е — Естественный


    Соня усердно мимикрирует под человека: допускает ошибки, использует смайлы и серии знаков препинания для пущей выразительности, никогда не повторяется в рамках разговора.


    2015-06-03 12:05:24 И: хм... а как вас зовут?
    2015-06-03 12:05:37 С: Евгений
    2015-06-03 12:05:37 И: будем занкомы, Евгений!

    Алиса тоже держится по возможности естественно, но исключительно в границах грамотности и приличности, видимо, обозначенных брендом Яндекса. Google Ассистент приятно отличается живостью: использованием смайлов, отсутствием точек в конце предложений и несколькими баблами ответа.


    Игнорирую естественность синтезированной речи, которой у Сони нет, и по естественности расставляю ботов так: 1 — Соня, победитель теста Тьюринга; 2 — Google Ассистент; 3 — Алиса.


    Г — Гибкий


    Поведение Сони Гусевой ограничено тысячей правил. Поэтому ответы Сони не всегда точно соответствуют вопросу. Для сравнения, у Евгения Густмана (прошедшего тест Тьюринга на английском языке в 2014 году) их было в три раза больше.


    2015-06-03 12:06:53 С: Но все равно чем же ты занимаешься?
    2015-06-03 12:06:53 И: ещё не решила

    В рамках болталки Алиса управляется не только жёстко заданными правилами, но и специальными алгоритмами, позволяющими ей давать подходящие ответы на реплики в самых разных формулировках и таким образом демонстрировать гибкость. В навыках Алиса не столь гибка: например, на вопрос, будет ли завтра дождь, вместо прямого ответа она упорно сообщает прогноз.



    Google Ассистент пока не понимает даже, казалось бы, простых формулировок.



    По гибкости боты занимают места в таком порядке: 1 — Алиса; 2 — Соня, победитель теста Тьюринга; 3 — Google Ассистент.


    К — Контекстный


    Соня Гусева активно наполняет контекст разговора, запрашивая информацию о пользователе и впоследствии используя её. Она понимает, что уже представлялась пользователю и адекватно реагирует, когда судья пытается игнорировать общий контекст.


    2015-06-03 12:06:35 С: А чем ты занимаешься, Анна?
    2015-06-03 12:06:35 И: не Анна, а Соня!!!

    Алиса, увы, редко использует контекстную информацию. Google Ассистент хотя бы приветствует меня по имени.



    По критерию контекста позиции ботов таковы: 1 — Соня, победитель теста Тьюринга; 2 — Google Ассистент; 3 — Алиса.


    И — Инициативный


    При разработке чат-ботов я часто руководствуюсь правилом “И чё?”: если после реплики бота хочется сказать эту фразу, видимо, робот нарушает принципы кооперации и что-то идёт не так.


    Следуя принципу “лучшая защита — это нападение”, Соня Гусева смело перехватывает инициативу и ведёт разговор.


    2015-06-03 12:04:25 И: можно вас спросить кое-что?
    2015-06-03 12:04:43 С: Конечно
    2015-06-03 12:04:43 И: кто вы по знаку зодиака?
    2015-06-03 12:04:54 С: Скорпион

    Алиса тоже делает попытки продемонстрировать смешанную инициативу, иногда задавая вопросы. А Google Ассистент, хоть и предлагает подсказки, инициативу предпочитает оставлять за собеседником.



    По критерию инициативы места распределяются так: 1 — Соня, победитель теста Тьюринга; 2 — Алиса; 3 — Google Ассистент.


    Й — И краткое


    Все ответы Сони выверены по длине, впрочем Алиса и Google Ассистент тоже следят за речью и в рамках болталки стараются соблюдать правило “одного дыхания” для своих реплик. А вот в навыках этот принцип часто игнорируется.


    Отдаю 1-е место Соне, победителю теста Тьюринга, а 2-е делят Алиса и Google Ассистент.


    Заключение


    Как автор одного из чат-ботов, я не мог быть объективным, в результате Соня Гусева оказалась на первом месте. Что касается помощников от Яндекса и Google, они показали схожие результаты. Надо понимать, что их показатели во многом зависят от сторонних разработчиков навыков.



    Повторюсь, что голосовые помощники не ставят себе цель пройти тест Тьюринга и для их полноценного сравнения нужны иные проверки. Однако, как показывает проведённый анализ, создатели Алисы и Google Ассистента при проектировании диалогов взяли на вооружение некоторые принципы первых чат-ботов, и разработчикам приложений с разговорным интерфейсом есть чему поучиться у ботов-победителей.

    Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

    Напоследок мини-опрос: какой помощник вам нравится больше?
    Поделиться публикацией
    Комментарии 52
      +1
      Алису можно спровоцировать на разговор между Алисами, а так же обидеть обозвав. Остальных можно?
        0
        На ютубе есть видео где Алису провоцируют на разговор с Сири, думаю что если поискать то все варианты возможны.
        +4
        Пробовал Алису — не вошло.
        Гугловый ассистент (по крайней мере по русски) еще более тупой чем Алиса.
        Так что мое ИМХО с автором согласно.
          +2
          Интересно, а можно ли представиться Соне Гусевой именем «Евгений», где буква «Е» заменена на латинский эквивалент, и в ответе проверить, что за буква?
            +12

            Вам бы в жюри :)

              0
              Хотя, возможно, у бота есть список имен, чтобы нельзя было одурачить несуществующим именем. В этом случае бот может среагировать на такого «Евгения» как на несуществующее имя. С другой стороны, если у разработчиков мысль пошла по пути обработки несуществующих имен, то и до замены букв тоже вполне могло дойти.

              Еще один перспективный путь — ответить в духе «Зови меня Евгением» — склонять имена непростая задача.
                0
                А как проверять существуемость имени? А если собеседник с какой экзотической страны и его имени нет в распространенных словарях? Или просто родители очень креативные?
                  +1
                  Экзотическое имя у человека вызовет определенный интерес, бот для прохождения теста, по-хорошему, должен это имитировать.
                  0
                  А зачем вообще проверять существует ли имя? Вы же при знакомстве не начинаете гуглить незнакомые имена? Вы изначально расположены на то, что информацию вам дают правдивую или, как минимум, представляются так, как хотели бы, чтобы к ним обращались.
                    +1
                    У живого человека фраза «Меня зовут вф№7z» как правило вызовет некоторое недоумение.
              –4
              Пока я чувствую, что бот тупее 10-летнего ребёнка в плане общения, мне совсем не хочется общаться с таким ботом.

              Отдельно хочу напомнить, что эти боты прямо таки следят за пользователем и отправляют кучу данных на удалённые сервера. Ещё 10 лет назад такие программы считались вредоносными шпионами и удалялись из каталогов.
                +13
                Когда бот станет умнее 10-летнего ребенка — ему перестанет хотеться общаться с людьми.
                  0
                  Не могу не согласиться.
                  0

                  Думаю, вы сильно льстите ботам сравнив их с 10-летними. 10 летний ребенок вполне может вести осмысленный разговор и держать контекст. Я бы их сравнил… c двухлетними или с муравьем.

                    +4
                    Скорее, с собакой. Налицо попытки эмпатии и чёткое выполнение небольшого числа голосовых команд.
                      0
                      На лицо «китайская комната»
                  +5

                  Это сравнение мне кажется не совсем корректным.


                  У ассистентов и чат-ботов совсем разные задачи, в чатности у ассистентов нет задачи проходить тест тьюринга.


                  У гугл-ассистента совсем нет "личности" не по недоразумению, а специально, он максимально имперсонифицирован, вам не должно быть приятно с ним общаться, а должно быть удобно. Целевая аудитория — миллиарды человек, у него не может и не должно быть какой-то конкретной персоналити, все углы должны быть сглажены.


                  И конечно, выдавая прогноз погоды в ответ на вопрос про дождь, любой ассистент проваливает тест тьюринга наглухо, но при этом делает свою работу.


                  P.S. Google Assistant на английском и на андроиде весьма неплохо работает. Алиса же вызвала недоумение, когда я ее пробовал, выдавая несмешные шутеечки (программист Алексей обещал написать это к осени, но не сказал к какой) на базовые запросы типа "разбуди меня в 8" и "поставь таймер на 5 минут" и была цинично удалена.

                    0
                    Выдавая прогноз погоды в ответ на вопрос про дождь, ассистент нарушает принципы кооперации по Грайсу — и теряет в удобстве.

                    Что касается имперсонификации, то выбор чуть шире: ассистент может быть не только с яркой личностью или безликим. По аналогии с графическим интерфейсом, где у пользователя есть выбор скинов, в разговорном интерфейсе пользователь мог бы выбирать особенности и черты помощника, которые ему нравятся.
                      0
                      Выдавая прогноз погоды в ответ на вопрос про дождь, ассистент нарушает принципы кооперации по Грайсу — и теряет в удобстве.

                      Согласен, на конкретный вопрос лучше бы дать конкретный ответ (согласно прогнозу погоды завтра будет дождь), но как бы то ни было — у ассистентов настолько огромный граф знаний и нетипичных навыков, что завалить их в тесте тьюринга не должно составить труда. И это не проблема в общем и целом, потому что, повторюсь, перед ними, как мне кажется и нет задачи быть человеком.


                      выбор чуть шире

                      Конечно, я же только про гугл писал. Алиса где-то между гулом и упомянутым чатботом например, но у нее и ЦА сильно уже.


                      Пользователь мог бы выбирать особенности и черты помощника, которые ему нравятся

                      Это все равное неправильный (если исключить из выборки гиков) UX, правильный — когда все выбирается за тебя и очень seamless, нежно прощупывая твою реакцию на то или иное проявление персональности через ворох доступных сенсоров и опираясь на тонны научных иследований и данных. Наверное так и будет в будущем. Пока +- жестко заданные модели поведения.

                        0
                        «Перед ними, как мне кажется и нет задачи быть человеком» — об этом пишу и я. Мысль в том, что люди в ходе эволюции выработали некоторые принципы, как быть удобным для собеседника в диалоге, как эффективно отвечать на вопросы. Разработчикам конкурсных ботов пришлось эти принципы исследовать, чтобы имитировать человека, а разработчикам голосовых помощников следует учитывать те же принципы, чтобы сделать помощников удобными и эффективными.

                        «когда все выбирается за тебя» — это вопрос реализации: делаешь ли ты выбор явно, копаясь в настройках, или неявно, передавая боту информацию о твоих предпочтениях через твоё поведение или через социальный граф и поведение твоей социальной группы или ещё как-то. Мысль 1 в том, что хороший разговорный интерфейс должен быть адаптивным. Мысль 2, что попадание манерой общения в целевую аудиторию может повысить удовлетворённость пользователей.

                        Простейший пример: Соня Гусева, как и Алиса и Google Ассистент, начинает общаться на «вы». Но в любой момент ей можно сказать «Давай на ты?» — и она продолжает разговор, обращаясь на «ты». Гибкость уже на этом уровне современным помощникам недоступна.
                    +4
                    Голосовые помощники и не должны притворяться человеком. Чтобы пользователь не рассчитывал, что они его поймут и не ожидал от них чего-то необычного.
                      0
                      Речь не о том, чтобы притворяться, а о том, чтобы придерживаться принципов общения, выработанных людьми.

                      Простой пример: люди пользуются «тегами» — <Привет/Пока>, чтобы открыть и закрыть диалог. Голосовому помощнику такие теги не очень-то нужны. Но если бот не поймёт «привет/пока» или «спасибо» (о котором часто забывают разработчики навыков), это покажется необычным и вряд ли вызовет доверие для дальнейшего взаимодействия. Поэтому некоторый уровень естественности помощникам в общении с людьми нужен.
                      0
                      Судьи странные, меня вообще всегда поражает, что они как будто подыгрывают ботам. Что может быть проще, чем спросить «а сколько будет двды дваа?» с опечатками прямо, и прочие простые тесты провести.
                        0
                        Задача теста не завалить бота. Задача теста выявить бота в ходе типичной беседы.
                          0
                          Что такое типичная беседа? Когда у меня была bbs и на ней vsys, некоторые тоже думали, что это реальный человек (кстати, с тех пор я не видел нормального самообучающегося бота). Т.е. Еще в 96м году некий программист из Ташкента уже выиграл конкурс.
                            0
                            Пэрри прошла тест в семидесятых.
                              0
                              Глянул Parry, интересно, кто принял ее за человека, даже с легендой. Может Elisa?
                            0
                            Если говорить о настоящем тесте Тьюринга, то там задача судьи как раз завалить.
                        0
                        Сири хорошо отвечает на вопрос про дождь завтра:
                        Скриншот
                        image
                          +2
                          После трёх минут разговора, 47% судей приняли её за человека.
                          Кто все эти люди?
                            –1
                            Вот да, из всех 3х представленных ботов в этом посте «Соня» самый тупой. :)
                            0
                            Иван, спасибо за статью. Я руководитель Наносемантики, которая проводила 3 года назад Тест Тьюринга. Есть мысли про этот год, давайте пообщаемся.
                              0
                              Боты, которые участвовали в тесте Тьюринга это закрытые программы? Или бывают открытые проекты? Может кто-то в теме.
                                +7
                                image
                                Простите пожалуйста, если баян или не корректный вопрос, как у роботов с распознаванием таких, очевидных многим русским людям слов?
                                  –1
                                  Вообще не очевидно. Пока коллеги не подсказали, я даже представить не мог что это. Да и после подсказки — не очевидно откуда такие анологии.
                                    +18
                                    Ловите бота!
                                      +2
                                      ХЗ. Короткого взгляда хватило, чтобы понять что тут написано.
                                        0
                                        Просто потому, что больше нет слов из 4 букв с окончанием "〇☐△"
                                          0
                                          Бот: «Но ведь звёздочка может заменять несколько символов?!»
                                          («Европа» со звёздочками по кругу.)
                                            0
                                            ☐〇☐△
                                        0
                                        Очень похоже на распознавание каптчи.
                                        +4
                                        Аксиома Эскобара.
                                        Привезли нам тут в офис Яндекс станцию. Мы как бы ожидали, что на презентации её перехваливают. Но чтобы настолько. Это абсолютное бревно. Постоянный срыв контекста, через раз понимает что от неё просят, в произвольный момент посылает пользователя. Чтобы включить песню с русским названием нужно говорить «включи песню» а не просто «включи», иначе ей сносит башню.
                                        Поставили навык «угадай песню» так из него выйти удалось только хардресетом, потому что с этого момента она любое слово или фразу (в т.ч. «Алиса», «Алиса хватит» и «Алиса остановись») произнесенные в комнате воспринимала как новую строчку для угадывания песни.

                                        Google-ассистент просто никакой.
                                          0
                                          Просто это не Алиса, а тот самый индус.
                                          +1
                                          В секции Г-Гибкость. Алисе задается вопрос будет ли завтра дождь — и снимаются «баллы» за то что нет прямого ответа на вопрос. Google Ассистент на вопрос «Will there be a rain tomorrow» четко отвечает на вопрос «No, it won't rain tomorrow in [City]» (правда еще куча инфы выдает которую ты не запрашивал)

                                          Кстати Алиса тоже не отвечает на вопрос «чем ты занимаешься». Ответ конечно есть но это заранее забитые шутки. Так что я не понял как Алиса получила первое место в секции Гибкость :/
                                            +1
                                            Никогда не ждал от голосового помощника Алиса возможности нормально с ней общаться, как с собеседником. По-моему это совсем не то, что надо большинству пользователей, и к чему стремятся разработчики.
                                            Зато меня сильно расстроил тот факт, что голосовой помощник Алиса на моём телефоне не может практически ничего. Она не запускает нужного приложения, не может записать разговор на диктофон, не может за меня делать пометки в виде текста. А ведь мне не так много надо :-)
                                              0
                                              И тут ее вины нет, т.к. разработчик ОС просто не дает ей такую возможность. Вероятно, потому что у него, как вы знаете, есть свой голосовой ассистент, обязанный взять 100% андроид-рынка. И тут и яндекса немного вариантов. Разве что вместе с Алисой ставить свой будильник, диктофон, заметки и т.д…
                                                0

                                                Это не верно. Я когда-то (когда это еще не было мейнстримом) работал в компании которая делала своего ассистента для андроид. И уж на будильники-то средств ОС хватало с избытком.

                                                  0
                                                  Быстрым поиском не нашел, где именно слышал/читал эту инфу. Но в любом случае она уже не актуальна.
                                                    0

                                                    Очень странным решением было релизить без этих фич. Они статистически в топ-5 запросов (https://voicebot.ai/2018/03/21/data-breakdown-consumers-use-smart-speakers-today/). Я (опять повторюсь) пытался воспользоваться Алисой и снес ее немедленно после того как она стала не смешно шутить в ответ на просьбу поставить будильник.

                                                      0
                                                      вероятно вы слышали про iOS, там-то закрытая система.
                                                    0
                                                    Например, Дуся (http://dusi.mobi/) это может.

                                                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                Самое читаемое