Google представляет Meena, чат-бота на нейросетях



    В Google попытались создать чат-бота, максимально похожего на человека. Результатом разработок стала Meena — модель, работающая на основе нейросетей. По оценке Google, чат-бот способен достигнуть большей «человечности» в беседе по сравнению с другими моделями.

    Как пишут Дэниел Адивардана, старший инженер, и Тханг Луонг, старший научный сотрудник отдела исследований Google Brain Team, у большинства современных чат-ботов есть критический недостаток — отсутствие смысла в высказываниях. Иногда они говорят то, что не соответствует сказанному ранее, им может не хватать базовых знаний о мире. Кроме того, чат-боты часто дают ответы, которые нельзя назвать конкретными. Например, «я не знаю» — разумный ответ на любой вопрос, но он не конкретен. Также чат-боты нередко бывают узкоспециализированными: они работают хорошо, пока пользователи не отклоняются от ожидаемого курса беседы.

    В последнее время разработчики пытаются создать чат-бота, который смог бы общаться практически обо всем. Такой бот мог бы использоваться для улучшения интерфейса электронных устройств, помочь в изучении иностранных языков и создавать более «живых» персонажей видеоигр.

    «Мы представляем Meena, диалоговую модель на основе нейросетей. Meena может вести более разумные и конкретные беседы, чем существующие современные чат-боты», — пишут в Google.


    В основе Meena лежит архитектура Evolved Transformer seq2seq. Meena работает с помощью одного блока кодера Evolved Transformer и 13 блоков декодера Evolved Transformer. Кодер отвечает за обработку контекста разговора, чтобы Meena могла понять смысл сказанного. Затем декодер использует эту информацию для формулирования ответа.

    «Мы обнаружили, что мощный декодер является ключом к более высокому качеству разговора», — указывают в Google.

    Модель Meena имеет 2,6 млрд параметров и обучалась на 341 Гб текста. По сравнению другой известной моделью, OpenAI GPT-2, у Meena в 1,7 раза больше параметров, а объём данных для её обучения больше в 8,5 раз.

    Как пишут в Google, существующие оценки качества чат-бота, как правило, малоэффективны из-за их сложности и несогласованности. Это побудило компанию разработать новую метрику оценки под названием Sensibleness and Specificity Average (SSA), которая фиксирует основные атрибуты общения бота с людьми.

    «Чтобы вычислить SSA, мы общаемся с несколькими чат-ботами — Meena и другими известными ботами, в частности, Mitsuku, Cleverbot, XiaoIce и DialoGPT. Чтобы обеспечить согласованность оценок, каждый разговор начинается одинаково — с приветствия. Каждый ответ оценивается по двум параметрам — осмысленность и конкретность. Если ответ кажется неправильным (запутанным, нелогичным или фактически неверным), он оценивается как не имеющий смысла», — указано в блоге.

    Если ответ проходит по критерию осмысленности, то дальше высказывание оценивается как конкретное или нет. Например, если собеседник говорит «Я люблю теннис», а бот отвечает «Это хорошо», то ответ помечается как неконкретный, так как такой ответ можно использовать в десятках различных контекстов. Но если бот отвечает «Я тоже, я обожаю Роджера Федерера!», то такой ответ помечается как конкретный, поскольку он тесно связан с предметом обсуждения. В итоге чувствительность чат-бота (Sensibleness) складывается из доли ответов, помеченных как «разумные», а специфичность (Specificity) — из ответов, помеченных как «конкретные». Среднее из этих двух — оценка SSA.

    Кроме того, в оценке Meena использовался такой параметр, как недоумение (Perplexity), автоматическая метрика, доступная для любой модели нейросети, измеряющая неопределенность языковой модели. Чем ниже этот показатель, тем больше уверенности в том, что модель сгенерирует свой ответ правильно, и тем выше оказывается показатель SSA. У Meena показатель недоумения равен 10,2, что соответствует SSA в 72%. Оценка SSA человека, как утверждает Google, составляет в среднем 86%.



    «Хотя мы сосредоточились исключительно на осмысленности ответов бота, другие атрибуты, такие как «личность» модели и соответствие её ответов фактам, также заслуживают внимания в последующих разработках. Ещё одно ключевое направление работы — решение проблем безопасности и предвзятости чатботов. Учитывая сложности, связанные с этим, мы пока не выпускаем демонстрационную версию Meena для внешних исследований. Однако она будет доступна в ближайшие месяцы», — обещают в Google.
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 12

      0
      Пролазил несколько сайтов, в том числе оф. блог гугла про Meena. Так и не нашёл как попробовать этого бота)
        +1
        В последнем абзаце:
        Ещё одно ключевое направление работы — решение проблем безопасности и предвзятости чатботов. Учитывая сложности, связанные с этим, мы пока не выпускаем демонстрационную версию Meena для внешних исследований.
        Так что не судьба, по крайней мере в ближайшую пару месяцев. Или лет.
          +2
          мы пока не выпускаем демонстрационную версию Meena для внешних исследований.

          Боятся, что его плохому научат, как бота от Майков :))
          0
          Учитывая сложности, связанные с этим, мы пока не выпускаем демонстрационную версию Meena для внешних исследований. Однако она будет доступна в ближайшие месяцы», — обещают в Google.

          (прошу прощения за дубликат, комментарий долго модерировали)

            0
            Ничего, бывает. У меня первые пять комментариев тоже была фрустрация, что что-то написал первым, но пока ответ модерировался, перед тобой появилось два комментария с таким же смыслом.

            Ещё один коммент – и можно комментировать без задержек! :D
          +3
          Небольшой комментарий от человека, работающего с чат-ботами:

          Забавно, но похоже и тут работает принцип «что меряем, то и получаем».

          Давайте детально:
          — декодеры позволяют генерировать относительно связный текст, но без особого смысла. Пример — GPT-2-сеть, Порфирьевич и все-все-все.
          — кодер, в принципе, позволяет как минимум определить тематику текста (т.е. отнести текст, например, к тематике тенниса)

          И… если мы будем использовать метрику, предложенную Гуглом, мы действительно придём к выводам, указанным в статье. Усложнение декодера позволит давать разнообразные привязанные к теме предыдущей реплики тексты. Что, согласно метрике, будет расценено как «разумный и конкретный ответ». О смысле запроса речи не идёт — что, собственно, Гугл не особо скрывает. Речь идет о «гладкости» порожденной реплики, для чего, собственно, декодеры и потребны. При коротких репликах отсутствие смысла можно заметить только рассматривая диалог в целом — что не оценивается данной метрикой, в отличие, от, скажем, теста Тьюринга.
            +1
            Нужно показать прорыв там, где прорыва нет?
            Изобретите собственную метрику!
              0
              есть два пути
              1. придумать архитектуру, действительно сохраняющую смысл и осознающую отношения между сущностями
              2. добавить еще миллиард параметров, надеясь, что система найдет сама все нужное

              может быть, второй путь однажды и сработает
                0
                Все верно, но сочинять многоходовые шутки в режиме диалога это гораздо больше чем кодер / декодер. Тут как минимум надо угадать реакцию оппонента и встроить ее в свою модель диалога.

                image
                  0
                  Сложный вопрос. Насколько это частый вариант? Или же так случайно получилось из 100 вариантов диалога? Насколько я понимаю, она сама не понимает, что это шутка, это скорее следует из фразы «that's a pretty good joke» человека.

                  Вообще если рассматривать пары, диалог и так выглядит логичным — например, «they're really smart — I heard they go to college» Не cows, а they. Вполне возможно, что модель и не в курсе, что здесь скрывается за референцией they.
                +1

                А потом появится открытый платный API и совсем некуда будет скрыться от автообзвонщиков на базе этой технологии :(

              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

              Самое читаемое