Как стать автором
Обновить

Чатботы, трансформеры, беспилотный транспорт и все-все-все: экспресс-тур по городу ИИ

Время на прочтение12 мин
Количество просмотров23K
«Ничто не стареет так быстро, как будущее», — девиз конкурса «Технотекст 2021», в котором Ростелеком поддерживает номинацию «Искусственный интеллект». Мы понимаем, что изучать ИИ можно по-разному. Так, исследователи Gartner взглянули на него с точки зрения бизнеса и классифицировали направления ИИ по стадиям внедрения в производство. Пока одни технологии взбираются на пик хайпа, другие уже выходят на плато продуктивности — этап, когда радикальные инновации уже позади, но технологию ещё нужно допилить.

Мы же посмотрим на ИИ как туристы. Представим, что ИИ — это город. Тогда отдельные технологии — объекты городской инфраструктуры. Мы прогуляемся по этому городу с гидами-экспертами, которые помогут понять, как работают технологии и для чего они нужны.

Большое железо для больших данных: гипермасштабируемые ЦОДы

На въезде, неподалёку от электростанции, нас встречает колоссальное сооружение, похожее на холодильник с солнечными батареями. Кажется, что оно никогда не закончится. Это — гипермасштабируемый ЦОД, построенный на месте бывшей промзоны. Площадь такого монстра — примерно квадратный километр. Сейчас в мире таких ЦОДов более пятисот, и они потребляют больше 200 ТВт в год.
Задача гипермасштабируемых ЦОДов — дать пользователям практически неограниченное увеличение вычислительных мощностей. Это нужно бизнесу, государству, частным лицам и интернету вещей. Аналитики утверждают, что спрос ещё подстегнут метамиры и виртуальные вселенные. Например, крупнейший клиент китайской Chindata, которая строит гипермасштабируемые ЦОДы, — это ByteDance, владелец TikTok. Виртуальным вселенным потребуется ещё больше памяти и полосы пропускания.

От простого к сложному: глубокое обучение (deep learning)

Вычислительная мощность — одно из главных условий успеха глубокого обучения. Чтобы разобраться в основных принципах работы глубоких нейронных сетей, достаточно вузовских курсов линейной алгебры и матанализа. Правда, архитектура современных сетей может быть довольно сложной. Но и здесь используется не какая-нибудь особенная математика, а эффективная адаптация вычислительных мощностей к особенностям задачи. Вспомним, как определяют глубокое обучение классики. Гудфеллоу, Бенджио и Курвилль в книге «Глубокое обучение» ставят во главу угла иерархию понятий, которую строит компьютер при обучении. При этом сложные понятия создаются на основе более простых. Граф, описывающий эту иерархию, — многоуровневый, или глубокий. А знания, как всегда в машинном обучении, приобретаются опытным путём. От человека не требуется формально описывать данные и строить признаки. Иными словами, этап «feature engineering» исключается.
Однако сразу возникают два вопроса. Во-первых, какие практические задачи решает глубокое обучение? Во-вторых, если переложить всю тяжесть работы с человека на компьютеры, то не окажется ли, что необходимые для глубокого обучения ресурсы есть лишь у гигантов, таких как Google, Amazon и Microsoft? Спросим у наших гидов-экспертов.

Александр Мальцев
руководитель направления департамента анализа данных Ростелекома
Возможности глубокого обучения безграничны. Вплоть до того, чтобы писать код за человека, рисовать картины и придумывать новые архитектуры глубоких нейронных сетей. Остаётся вопрос качества, который решается разработкой новых подходов, увеличением количества данных, ресурсных мощностей и времени, необходимого для решения. Тренировать системы глубокого обучения способны практически все. Всё зависит от архитектуры, объёма данных и нужного уровня качества.
Получается, что использовать глубокое обучение может каждый, но результаты зависят от объёма данных и вычислительных ресурсов. Пустота на входе даёт и пустоту на выходе. Или, как сказано в Евангелии от Матфея, «кто имеет, тому дано будет и приумножится, а кто не имеет, у того отнимется и то, что имеет». Если данных мало, то их дефицит можно заместить только интеллектом человека.
Эти рассуждения наводят на два вопроса. Во-первых, какая аппаратная база требуется, чтобы глубокое обучение приносило пользу? Тысяча или миллион серверов? Во-вторых, каков эквивалент мозга одного человека в серверах? Спросим экспертов.

Александр Мальцев
руководитель направления департамента анализа данных Ростелекома
Самая крупная современная модель, GPT-3, училась на суперкомпьютере Microsoft Azure. Но огромные вычислительные мощности необязательны: выполнять глубокое обучение можно и на арендованных серверах, и на собственном компьютере (даже без GPU), и на смартфоне. Помогает подход transfer learning — берём знания, полученные крупными моделями авторства Google, Microsoft и других.

Оценить мозг в серверах не могу, но можно порассуждать. В нашем мозге около 80–100 миллиардов нейронов. GPT-3 имеет около 175 миллиардов нейронов, однако сравнивать некорректно: для имитации одного человеческого нейрона нужна как минимум тысяча искусственных. GPT-4, полагают, будет содержать около 100 триллионов нейронов. Но исходя лишь из этих чисел всё равно нельзя сказать, что она будет «умнее» человеческого мозга.
И всё же процессоры, которые использует каждый из нас, не заточены под глубокое обучение и проигрывают специализированному железу в эффективности. А насколько незаменимы для глубокого обучения универсальные графические спецпроцессоры и интегральные схемы для deep neural network asics? Есть ли смысл производить их у нас и делается ли это?

Александр Мальцев
руководитель направления департамента анализа данных Ростелекома
В последнее время развиваются интегральные схемы для глубокого обучения, которые зачастую узконаправлены (допустим, заточены исключительно под умножение матриц), но делают работу быстрее и энергоэффективнее GPU.

Российских компаний в этой области мало. Недостаточно произвести схему — необходим софт. А разрабатывают софт и собирают схемы обычно разные компании в нескольких странах.

Фильтр на входе: разметка и очистка данных

Глубокому обучению требуется не только «большое железо», но и большие данные. Настолько большие, что участия человека с опытом инжиниринга признаков не требуется. Однако это в идеале. На практике же подготовка данных не исчезла, а выделилась в отдельную отрасль.
Основная идея глубокого обучения — это иерархия понятий. А подготовку данных проще представлять в виде последовательности фильтров. Такая система есть и в нашем вымышленном городе.
На другой стороне реки — обширная территория водоподготовки, где речную воду направляют в бассейны и отстойники. Первым делом при помощи бурлящих пузырьков отпугивают рыбу. На механическом этапе очистки воду прогоняют через решётки, задерживая крупные примеси, а мелкие частицы отсеивают в песколовках. На биологическом этапе воду пропускают через отстойники с бактериями, которые превращают примеси в ил, а его убирают «илососы». На физико-химическом этапе вода обрабатывается коагулянтами, преобразующими оставшуюся взвесь в хлопья. И, наконец, после слоя кварцевых фильтров вода становится прозрачной и бесцветной.
Так же как очистка воды, разметка и очистка данных (data labeling) превратилась в большой бизнес. К примеру, стартап Scale AI оценивают в 7,3 миллиарда долларов. В компании трудится около 900 человек, а сумма венчурных инвестиций составляет 606 миллионов. Напрашивается вопрос: каковы перспективы очистки данных в качестве самостоятельного бизнеса в России? В каком формате это направление приживётся у нас?

Александр Мальцев
руководитель направления департамента анализа данных Ростелекома
С учётом политики импортозамещения это направление в России имеет большие перспективы. Яндекс.Толока — один из аналогов Scale AI, разработанный в России. На мировом рынке существует ещё около десяти крупных решений.

Аналоги появляются, потому что задач много и они разные: работа с видео, текстом или аудио. Исходя из задач, цены и удобства, пользователи выбирают разные продукты.

Трудности перевода: трансформеры

В отличие от очистки данных, трансформеры (transformers) находятся на этапе исследований, и интерес к технологии только разгорается — как в индустрии, так и в прессе.
Представим, что мы перебрались через реку и попали в банк (bank). На самом деле — на берег (тоже bank — river bank). С помощью такого примера технологию трансформеров объясняют инженеры Google, которые её изобрели. Смысл фразы «I arrived at the bank after crossing the...» зависит от пропущенного в конце слова. Если это «road» (дорога), то перейдя её, мы, скорее всего, попадём в банк. Но если последнее слово в предложении — «river», то есть река, то, перебравшись через неё, мы выйдем на берег. В случае английского языка в обоих случаях будет использовано слово «bank». Переводчик-человек понимает смысл этого слова из контекста. А вот у ИИ общепринятого решения таких задач до недавнего времени не было.
Технология трансформеров как раз использует контекст. Каждому слову в предложении назначается вес, который называют «вниманием». Фраза переводится в несколько итераций, в ходе которых из нескольких значений слова «bank» выбирается правильное.
Изобретательность впечатляет, но есть ли у трансформеров применение за пределами машинного перевода? Механизм внимания — это новация или ребрендинг какой-нибудь канонической формулы?

Александр Мальцев
руководитель направления департамента анализа данных Ростелекома
Применение есть: архитектура transformer используется в CV (Computer Vision). Для обучения с нуля действительно нужны большие вычислительные ресурсы, но благодаря transfer learning можно дообучать готовую модель под конкретные задачи.

Если упрощать, то механизм attention помогает машине понять, к чему относится прилагательное, местоимение и т. п., а также — каковы более сложные взаимосвязи между частями входных и выходных данных (или только входных, если мы говорим о self-attention, основе архитектуры transformer).

Больше чем слова: семантический поиск

В бесконечных потоках и водоворотах данных, мчащихся между торговыми моллами и логистическими центрами, нужна навигация. Поэтому наш виртуальный город удивит приезжих аккуратными указателями, адресными табличками едва ли не на каждом кустике и QR-кодами на стенах. Технология семантического поиска (semantic search), по мнению исследователей Gartner, выбирается из провала разочарования и завершает свою длинную историю победой. А до недавнего времени это направление казалось идеей без практических приложений. Что переломило судьбу семантического поиска? И где он выйдет на плато продуктивности — в торговых центрах B2B или в логистических центрах B2C?

Александр Мальцев
руководитель направления департамента анализа данных Ростелекома
Переход от поиска по ключевым словам к семантическому действительно долгое время казался теоретической идеей. Важный шаг произошёл в 2013 году, когда создали ПО word2vec. Инструменты для создания векторно-семантических моделей существовали и ранее, но word2vec стал прорывным, в первую очередь благодаря удобству использования, открытому исходному коду и скорости работы. Всё новые и новые подходы лишь улучшали качество поиска, помогая использовать контекст и дополнительные параметры (допустим, предыдущего поиска, геолокации, времени года и многие другие).

Сегодня тяжело отнести данную задачу однозначно к B2C или B2B, она даже встречается в M2M, используется успешно и давно, чем можно объяснить её широкое распространение. Как говорил Чеширский кот: «Кто ищет, тот всегда найдёт… если правильно ищет». А ищут ежедневно все: и люди, и машины.

На всякого мудреца довольно простоты: чат-боты

По торговой части города нас сопровождают чат-боты (chatbots) — интеллектуальные компьютерные системы онлайн-помощи пользователям, имитирующие человеческое общение. Вежливая настойчивость ботов кажется искусственной: они механически следуют чётко заданному набору инструкций. Но от глубокого обучения и трансформеров ожидают повышения интеллекта ботов.
Как долго чат-боты будут оставаться неестественными? Скоро ли появятся видеоботы, похожие на обычных клиентских менеджеров и продавцов? Смогут ли они пройти расширенный тест Тьюринга и стать неотличимыми от людей не только по тексту, но и по картинке?

Александр Мальцев
руководитель направления департамента анализа данных Ростелекома
Нельзя говорить, что чат-боты сейчас примитивны. Существуют сложные разговорные системы ИИ, с которыми пользователи могут пообщаться, например «Маруся» от VK и «Алиса» от Яндекса. Сложность реализации зависит от целей: люди, обращающиеся в чат-бот Ростелекома, не просят рассказать анекдот или сделать заказ в ресторане, поэтому создатели адаптируют ботов под конкретные предметные области, которые могут быть и сложными, и простыми.

Большинство текущих подходов основаны на принципе rule-based. Чат-боту необходимо понять из сообщения намерение пользователя (интент). Далее бот строит диалог на основе бизнес-логики, внешних инфосистем и интеграций.

Интент можно определить по ключевым словам или сложнее — обучая быстро принимать сложные решения на основе большого количества данных и больших вычислительных ресурсов — чтобы бот отвечал быстро.

Второй важный момент — скрипты (сценарии), которые создаёт человек. Они не должны быть слишком сложными, чтобы не запутывать пользователя, и должны использовать уже полученную информацию (допустим, имя, адрес, номер телефона), чтобы не переспрашивать в дальнейшем. Наконец, они должны покрывать большинство запросов пользователя и иметь гибкий интерфейс для изменения под новую бизнес-логику.

Для нешаблонного ответа, покрывающего запросы пользователя, необходимы сложные интеграции с внешними системами. Если клиент хочет узнать баланс, то можно указать ссылку на сайт или описать путь получения баланса в приложении. Но вряд ли человека удовлетворит такой ответ. Именно для ситуаций вроде получения баланса необходимо настроить интеграции, что зачастую небыстрый процесс, особенно в крупных компаниях.

Последний момент — это генерация разнообразных ответов на одни вопросы. Например, прощание с пользователем: можно придумать формулировки, учитывающие имя, время суток, ранее заданные вопросы и другие параметры. Всё это влияет на «интеллект» чат-бота.

Пройти расширенный тест Тьюринга чат-боты не могут, но и не пытаются. Более сложные разговорные системы, не соответствующие rule-based-подходу, не так широко применимы из-за трудности настройки под конкретную бизнес-логику с учётом интеграций и в основном ограничиваются «болталками» на общие темы. Видеоботы возможны: уже есть системы генерации видеоновостей от Сбера. В нескольких поликлиниках используются роботы-ассистенты, помогающие уточнить определённые вопросы.

Объединить системы генерации видео и функционала чат-бота — задача вполне выполнимая, но большинство клиентов обращаются в чат приложения или мессенджера либо в контакт-центр. И лучше развивать эти каналы, чем тратиться на генерацию видео.

Рано сдавать в архив: обработка текстов на естественном языке (NLP)

С пользователями общаются текстом и голосом, поэтому лингвистические корпуса, архивы и библиотеки в нашем городе расположены в самом центре. Не займут ли их место видеоархивы? Ведь кажется, что новые поколения всё меньше читают и пишут…

Александр Мальцев
руководитель направления департамента анализа данных Ростелекома
Не согласен, что поколения меньше читают и пишут. С развитием соцсетей и мессенджеров количество текста в интернет-пространстве только растёт. Растёт и желание пользователей писать в чаты компаний, где можно не ждать ответа на линии, а получить спустя время уведомление, где ответы бота или оператора остаются в истории и к ним всегда можно вернуться. Помимо этого, задача обработки текста на естественном языке не ограничена только текстовыми каналами связи. Аудиоданные переводятся в текст, с которым далее необходимо работать.

Альтернатива реинжинирингу: интеллектуальное принятие решений

В центре делового квартала высится башня трансформации. Её вершина обычно скрыта в облаках, и именно там принимаются решения.
Интеллектуальное принятие решений (decision intelligence) ляжет в основу управления организацией при помощи данных. При переходе к управлению по данным можно было использовать два подхода. Первый — это реинжиниринг системы с созданием единого хранилища или единого информационного пространства. Второй — научить ИИ пользоваться зоопарком существующих систем: это и есть decision intelligence. Специалисты Gartner полагают, что полноценное распространение технологии займёт около пяти лет. А сейчас преобладают простые частные решения.
К примеру, в последние дни марта проводит IPO израильская компания Rail Vision, технология которой подаёт машинисту сигнал тревоги, когда обнаруживает вблизи от состава подозрительный объект. Эта система использует машинное обучение и данные от нескольких видеокамер в разных частотных диапазонах. Система разделяет опасные объекты на ряд классов, включая людей, животных и автосредства. И возможно, она лучше машиниста.

Ковер-самолёт: беспилотный транспорт

Транспорт в целом — и железнодорожный, и автомобильный, и авиация — большой рынок приложений ИИ. Поэтому удивляет, что беспилотные транспортные средства (autonomous vehicles) исследователи Gartner разместили в провале разочарования. До выхода на плато продуктивности — не менее десяти лет. Где же главный барьер — в самом ИИ, сопутствующих технологиях (таких как аккумуляторы и дальномеры), инерции производителей и потребителей или неготовности законодательства?

Иван Колемасов
руководитель направления департамента анализа данных Ростелекома
Основная причина разочарований — это завышенные ожидания. Все ждали автоматизированный транспорт без водителя и внешнего оператора.

Несмотря на разочарование, технология проходит этап становления. Ассоциация SAE (Общество автомобильных инженеров) выделяет пять уровней автономности транспортного средства: неавтономный (1), частично автономный (2), условно автономный (3), высокоавтономный (4) и полностью автономный (5). Мы сейчас на втором уровне: определённый функционал в управлении может взять на себя автоматика автомобиля — круиз-контроль, умные ассистенты. Но с точки зрения закона машиной управляет человек. На полигонах и на определённых территориях РФ переходят к третьему уровню автономности: можно ненадолго передать управление автомобилем, но отвечает за всё по-прежнему человек.

Недавно правительство приняло постановление «Об установлении экспериментального правового режима в сфере цифровых инноваций и утверждении Программы экспериментального правового режима в сфере цифровых инноваций по эксплуатации высокоавтоматизированных транспортных средств». Право развивается вслед за технологиями. Машины Яндекса справляются с автономным перемещением на закрытых территориях (внутри Иннополиса) на пятом уровне автономности — то есть без водителя.

Всё и сразу: композитный ИИ

При столкновении с практикой красивые архитектуры ИИ нуждаются в адаптации, которая может занять годы. Поэтому технологии ИИ постепенно комбинируются и интегрируются. Подход композитного ИИ (composite AI) предполагает использование всего инструментария машинного обучения: очистку данных, обработку естественного языка (NLP), графы знаний, глубокое обучение и многое другое. Вряд ли один MLOps или дата-сайентист способен освоить все подходы. Означает ли это, что применять композитный ИИ смогут только большие команды консалтеров из крупных корпораций? И где взять специалистов — готовить в вузах или непосредственно в компаниях? В нашем воображаемом городе их обучают в кампусе нового типа — в городском парке, среди дубов и платанов. Университетских корпусов и аудиторий больше нет, они возникают лишь в моменты виртуальных конференций. Лаборатория будущих ML-опсов — это гараж, а стипендия — венчурные инвестиции.
Здесь мы заканчиваем нашу краткую экскурсию по городу ИИ. В статье мы рассказали не обо всём, наверняка есть и другие важные объекты. Предлагаем обсудить их в комментариях.
Теги:
Хабы:
Всего голосов 15: ↑13 и ↓2+21
Комментарии3