Разговорный жанр: как эволюционировали чат-боты / Habr

В интернете сегодня только и разговоров, что с чат-ботами (бадумтсс!). Развитие больших языковых моделей привело к небывалой популярности программ, которые поначалу появились как любопытные, но не слишком применимые в быту игрушки, затем долгое время служили интерактивными версиями раздела «Вопросы и ответы» на сайтах компаний, далее стали голосовым интерфейсом поисковых движков и наконец превратились в собеседников, которых все сложнее отличить от живых людей. Разбираемся, с чего начались, как развивались и куда движутся чат-боты.

Shoebox

В 1961 году инженер IBM Уильям К. Дерш создал устройство, которое могло выполнять арифметические операции в ответ на голосовые команды.

Машина была представлена на Международной выставке технических и технологических достижений в 1962 году. Поговорить с устройством можно было только о математике. Оно умело реагировать на 16 слов: десять цифр от 0 до 9 и несколько терминов для простых арифметических операций. Получив голосовую команду, машина производила вычисления и печатала ответ.

Устройство иронично назвали Shoebox (обувная коробка). И хотя его еще нельзя было назвать полноценным чат-ботом, в нем уже просматривались узнаваемые сегодня черты: умная машина распознавала голосовые команды человека и в ответ возвращалась с полезным результатом. Именно по такому принципу работали все последовавшие за Shoebox чат-боты.

ELIZA

Первый в мире чат-бот ELIZA был разработан Джозефом Вейценбаумом в Массачусетском технологическом институте (MIT) в 1966 году. Бот анализировал запрос пользователя, сопоставлял с известными ему образцами и выдавал наиболее релевантный ответ. В те времена возможности для создания ветвистых сценариев диалогов отсутствовали, поэтому Вейценбаум выбрал для своего бота особое апмлуа — роджерианского психотерапевта.

Данный метод психотерапии предполагает, что терапевт задает пациенту наводящие вопросы и просит рассказать больше о том или ином случае из его жизни, а отвечающий в итоге сам анализирует свое психологическое состояние. Для технически ограниченного чат-бота роль оказалась идеальной.

Идеальной настолько, что ELIZA произвела фурор. Диалоги с ней печатали в газетах, а многие не верили, что чат-бот — не человек. Или, как минимум, приписывали ему человеческие черты. Сам Вайценбаум описывал случай, когда его секретарь попросила поработать с ELIZA, а спустя какое-то время попросила Вайценбаума выйти из комнаты, чтобы тот не видел, о чем она говорит с ботом. Так, хоть и на примере, намертво привязанном к контексту беседы с психотерапевтом, ELIZA доказала, что компьютеры могут правдоподобно имитировать человеческую беседу. Кстати, поговорить с ней можно на сайте Технологического института Нью-Джерси.

Иронично, что к 1970-м Вайценбаум в книгах и публикациях стал осуждать коллег по научному цеху и предупреждать об опасности их работы. А ИИ называл не иначе как «показатель безумия нашего мира» (index of the insanity of our world). Интересно, что бы он сказал сейчас?

Parry

У ELIZA вскоре появился напарник. В 1972 году американский психиатр и ученый Кеннет Колби из университета Стэнфорда создал программу Parry, которую некоторые пользователи считали улучшенной версией ELIZA. В отличии от ELIZA, Parry умел симулировать ответы не доктора, а пациента. В 1979 году Parry приняла участие в эксперименте, где пять опытных врачей-психиатров общались с чат-ботом, пытаясь определить, ведут ли они беседу с психически больным пациентом или с имитирующим его компьютером. В 52% случаев чат-бот смог обмануть специалистов, несмотря на долгие ответы и неспособность выражать эмоции.

Двух чат-ботов не раз заставляли поговорить друг с другом. Самая известная их беседа представляет весьма правдобный диалог терапевта и пациента, сгенерированный онлайн. Обе разработки сумели пройти ограниченный тест Тьюринга — экзамен, в котором машина должна убедить человеческого собеседника в том, что она тоже человек.

Конечно, в то время представления о искусственном интеллекте были очень примитивными, люди просто не были достаточно искушенными, и обмануть их было легче, чем любого из наших современников, хотя бы раз имевшего дело с самым простым чат-ботом. С другой стороны, многие чат-боты, появившиеся позже и существовавшие до недавнего времени, отличались от своих прародителей лишь разнообразием поддерживаемых тем. ELIZA и Parry заложили основу.

Jabberwacky (Thoughts)

В 1988 году британский разработчик Ролло Карпентер создал, как он сам утверждал, первого чат-бота с искусственным интеллектом, который должен был имитировать естественное человеческое общение в развлекательной и юмористической манере. Назывался проект Thoughts.

Thoughts отличался от предыдущих ботов тем, что использовал принцип обратной связи, позволяющий ориентироваться на контекст диалога, — то есть пытался запомнить детали беседы и использовать их в ответах на вопросы пользователя. Кроме того, пользователи могли обучать бота: например, английскому сленгу, шуткам и словесным играм. В 1997 году появилась веб-версия чат-бота и тогда же — его самое известное имя Jabberwacky, а в 2008 — усовершенствованная версия под именем Cleverbot. Новая версия, по словам создателя, обладала расширенными возможностями обучения и умела генерировать более связанные с контекстом беседы ответы.

Кстати, Jabberwacky все еще можно попробовать в деле.

Dr. Sbaitso

Инженеры Creative Labs разработали программу «Доктор Сбайтсо» для операционной системы MS-DOS в 1992 году. Sbaitso расшифровывается как SoundBlaster Acting Intelligent Text-to-Speech Operator. Пра��да, создали ее не для того, чтобы продвинуть технологии искусственного интеллекта вперед, а чтобы продемонстрировать возможности технологии генерации голоса, которые имелись в звуковых картах Creative Labs. С точки зрения амплуа бот повторял роль ELIZA: имитировал психотерапевта. Разве что ответы машина давала не только текстом, но и голосом. И с Dr. Sbaitso тоже можно пообщаться.

A.L.I.C.E.

До всем знакомой Алисы из устройств и сервисов Яндекса существовала другая: A.L.I.C.E. (Artificial Linguistic Internet Computer Entity). Чат-бот, созданный ученым Ричардом Уоллесом, появился в 1995 и стал важным событием в области разработки искусственных собеседников, потому что вместе с ботом Уоллес выпустил AIML (Artificial Intelligence Markup Language) — язык разметки, который описывал общие правила, по которым строится человеческий диалог. Уоллес заметил, что в языке есть ограниченный набор конструкций, которые люди используют наиболее регулярно, и каждой из них можно присвоить свой индекс частотности. A.L.I.C.E. определяла тему запроса пользователя по ключевым словам в нем и выдавала наиболее вероятный (частотный) ответ из готовых.

AIML вышел с открытым исходным кодом, это позволило энтузиастам создавать свои собственные чат-боты и пополнять базу возможных ответов, что в свою очередь ускорило развитие этой области.

Пример реализации чатбота.

Smarterchild

Чат-бот Smarterchild появился в 2001 году и во многом стал прототипом современных автоматизированных (голосовых и текстовых) ассистентов. Чат-бот был доступен в мессенджере AOL IM и позже — в MSN Messenger. Поначалу он давал возможность просто болтать на различные темы и играть в текстовые игры, однако с ростом популярности в программе появилась возможность быстрого доступа к информации из различных сторонних сервисов: погода, биржевые котировки, новости, расписания кинотеатров и т. д. На пике популярности у бота было около 30 миллионов пользователей. С угасанием популярности AIМ компания Microsoft подхватила эстафетную палочку и создала собственного SmarterChild для своего MSN Messenger.

Siri и другие голосовые помощники

В 2011 году в сфере чат-ботов случилась новая революция. Компания Apple представила голосового помощника Siri, готового помочь запланировать встречу, создать заметку, ответить на письмо и даже показать карту окрестных болот в ответ на запрос о том, где спрятать труп. Революционным в этом событии было то, что впервые на рынке появился голосовой чат-бот с прямой привязкой к ежедневным задачам пользователей, который при этом звучит как живой человек, способен «понимать» запросы в относительно свободной форме и даже вести короткие диалоги.

Шутка про спрятать труп — вовсе не шутка. В те благословенные времена ответы чат-ботов еще не были отцензурированы

Вслед за Apple своего голосового ассистента Google Now представила компания Google. В 2014 году подтянулась Microsoft с ассистентом Cortana, интегрированным в смартфоны с операционной системой Windows Mobile и компьютеры с Windows 10. Как и конкуренты, Cortana могла выполнять роль личного секретаря и поисковика.

В том же году произошел новый виток эволюции чат-ботов — Amazon представил Alexa. Она оказалась способна вести разговор с пользователем, отвечать на его вопросы, сообщать о погоде, новостях, ставить музыку, будильник, делать заметки и выполнять другие задачи. Главным отличием Alexa от всех предыдущих ассистентов был новый формат использования ассистента: теперь умный помощник поселился в небольших домашних устройствах — умных аудиоколонках Amazon Echo и Echo Dot. Помощник всегда включен и активируется по имени.

Формат оказался настолько популярным, что многие другие производители (Apple, Google, Samsung, Яндекс и др.) впоследствии также выпустили собственные устройства с голосовым ассистентом.

В течение нескольких дальнейших лет голосовые помощники не слишком менялись функционально. Им понемногу добавляли новые контексты использования: обучали делать покупки в интернет-магазинах, управлять устройствами умного дома, но в сути своей они оставались прежними, замкнутыми на нескольких предопределенных сценариях взаимодействия ботами. Стагнация прекратилась, когда на устройства пользователей по всему миру ворвался генеративный искусственный интеллект.

Генеративные чат-боты

Сейчас ChatGPT — это первое, что приходит на ум, когда речь заходит о чат-ботах на основе искусственного интеллекта. Однако эксперименты в этом направлении велись задолго до возникновения детища OpenAI. Далеко не все они, впрочем, были удачными.

В 2015 году, например, Microsoft провела публичный эксперимент с чат-ботом по имени Tay, который потерпел крах меньше чем за сутки. Суть опыта заключалась в том, чтобы бот общался в Twitter с пользователями и одновременно обучался говорить в их стиле и на их языке.

Поначалу Microsoft не подозревала, что же может пойти не так с этой затеей, но узнала очень быстро. Менее чем через сутки после запуска бот начал ругаться матом, публиковать заявления расистского толка и прочий «хейтспич» так яростно, что модераторы Microsoft отключили свое детище. Компания сообщила, что поломка была вызвана скоординированным усилием некоторых пользователей социальной сети, так как Tay был создан, чтобы быть персонализированным собеседником.

Как бы то ни было, больше софтверный гигант подобных экспериментов не проводил, а вместо этого выбрал инвестировать деньги в OpenAI в обмен на интеграцию GPT-технологий в свои продукты.

Google тоже развивала своего помощника, которого переименовали из Google Now в Google Assistant. В конце 2018 года компания выкатила большое обновление, в котором помощник уже умел самостоятельно звонить в рестораны, чтобы забронировать столик, в парикмахерские — чтобы записаться на стрижку, и так далее. Все с помощью генерирующей голос нейросети. Но вышедший вскоре после этого анонса ChatGPT явно показал, что людям от ИИ нужно совершенно другое — а именно умение общаться по-человечески.

Главное отличие чат-ботов прошлого от ботов на базе больших языковых моделей (таких как ChatGPT) заключается в том, что чат-бот больше не полагается на запрограммированный заранее сценарий взаимодействия с пользователем. Вместо этого он анализирует запрос и генерирует ответ, максимально похожий на то, что ему показывали тренеры на этапе обучения. ИИ-боты осваивают алгоритм составления ответов на вопросы, а не просто берут их из базы. Почти каждый ответ такого чат-бота уникален.

Выпустив в ноябре 2020 года бета-версию ChatGPT 3.0, компания OpenAI перевернула представления публики о том, какими могут быть чат-боты. Впервые на рынке появился продукт, который уверенно имитировал собеседника с энциклопедическими знаниями в самых разных областях и незаурядными креативными способностями. И это стало серьезным новым шагом в эволюции подобных программ.

Мультимодальное будущее

За время, прошедшее с запуска ChatGPT и множества других чат-ботов на базе генеративного ИИ, поток восторгов со стороны пользователей значительно поиссяк. Прежде всего потому, что и генеративные чат-боты обнаружили границы своих возможностей. Да, такие сети могут создавать уникальные тексты, но их качество сравнимо с навыками начинающего живого копирайтера; они могут писать код, но с ошибками. Такие сети способны генерировать картинки и видео по запросу, но люди на них все еще могут обладать лишними пальцами и другими анатомическими изъянами, исправить которые AI-тренерам пока что не удается.

Однако развитие продолжается, и теперь конкуренция в этой сфере ведется за то, кто сможет предложить наиболее умного мультимодального чат-бота.

Мультимодальность означает, что нейросеть сможет анализировать не только какой-то один тип данных (текст и цифры, изображение или звук), а любой из них, — и выдавать соответствующие ответы. Мультимодальность уже есть в ChatGPT 4: эта версия чат-бота умеет анализировать картинки и описывать, что на них изображено, хотя выдавать пока может только текстовые ответы. Сходными возможностями обладает конкурент от Google, нейросеть Gemini.

По обещаниям создателей, в следующих версиях ChatGPT количество типов информации, с которыми сможет работать бот, увеличится, а значит, вырастет и число и типов задач, которые он сумеет решить.

— Мам, давай разработаем мультимодальный ИИ.— Нет, у нас в будущем есть мультимодальный ИИ. — — Мам, давай разработаем мультимодальный ИИ.
— Нет, у нас в будущем есть мультимодальный ИИ.

Конечной целью эволюции чат-ботов их разработчики видят создание общего искусственного интеллекта. Того самого, который, как считают пессимисты, поработит человечество — настолько хорошо он будет рисовать презентации и снимать видеоролики. Однако если все пойдет по оптимистич��ому сценарию, то уже через несколько лет мы наконец получим то, чем казался людям 70 лет назад чат-бот ELIZA: искусственного собеседника, которого невозможно отличить от живого человека.

Разговорный жанр: как эволюционировали чат-боты