Интеллектуальные CPaaS: новинки индустрии и что ей дали AI/ML
В июне в Амстердаме прошлая очередная APIDays – конференция для всех, кто так или иначе создает и пользуется различными API. Темой конференции стал «расцвет контекстуальных коммуникаций», то есть коммуникаций, в которых обе стороны сразу и полностью понимают контекст общения. Звучит абстрактно, поэтому пара примеров: вам звонят с незнакомого номера. Соответственно, вы не знаете, кто звонит, откуда и с какой целью. И напротив, если вы делаете какую-то операцию в приложении интернет-банкинга и на каком-то шаге что-то пошло не так, вы можете прямо с этого шага позвонить в поддержку – контекст ситуации с ходу будет ясен как вам, так и оператору. Чтобы обеспечивать такую осведомленность, бизнесы используют коммуникационные платформы (CPaaS, Communications Platform as a Service), а те, в свою очередь, используют AI и Machine Learning. Именно об этом и рассказывал наш CEO Алексей Айларов, выступая на APIDays, а сегодня мы публикуем адаптацию июньского выступления.
Успех CPaaS
CPaaS – это быстрорастущий бизнес. Почему? У успеха концепции CPaaS есть несколько причин.
Во-первых, расцвет CPaaS случился во многом благодаря расцвету «нового энтерпрайза» – когда свою жизнеспособность доказали компании вроде Uber и Lyft, всем вдруг стало понятно, что все эти вчерашние стартапы используют облачные коммуникационные платформы. Когда рынок начал это понимать, спрос на CPaaS стал расти, так как облачные решения позволяют собирать на своей основе готовые «коробочные решения» очень быстро, чтобы начинать зарабатывать деньги.
Во-вторых, надо помнить, что CPaaS-платформы всегда были нацелены на разработчиков. А у каждого современного стартапа всегда есть разработчики, для которых не составляет труда использовать CPaaS.
В-третьих, облака – есть облака, что означает доступность к сервису по всему миру, масштабируемость и увеличение мощностей по запросу. И все это без головной боли для того, кто использует CPaaS.
И, наконец, большинство платформ предлагают принцип оплаты pay-as-you-go, когда надо платить только за то, что используешь: есть распознавание речи и перевод ее в текст – эти функции биллятся, а нет распознавания – ну, вы поняли. Это весьма гибко и прозрачно.
Новое в индустрии
Тут первым делом надо упомянуть про Serverless, который поднял удобство CPaaS на новый уровень. Однажды мы уже подробно писали на эту тему, сейчас же ограничимся главным тезисом: Serverless означает не отсутствие серверов вообще, а их отсутствие на стороне клиента. С точки зрения используемых вычислительных ресурсов это такой же pay-as-you-go, потому что плата взимается сообразно нагрузке на computing provider’а. Другой важный момент serverless – это то, что клиентам можно давать доступ к райнтайму платформы, а это ведет к снижению задержек и увеличению надежности.
Другой тренд – WYSIWYG-редакторы. Это один из шагов навстречу бизнес-аудитории, которая (чаще всего) не умеет кодить, но при этом может собрать логику бота/колл-центра в визуальном редакторе. Подходы к реализации немного разнятся (см. Smartcalls от Voximplant, Studio от Twilio, FlowBuilder от MessageBird и т.д.), но суть схожая – пользователь использует не код, а визуальные блоки, варьируя их расположение и связи между ними. Кстати, некоторые такие редакторы все же позволяют использовать код в качестве продвинутой возможности, например, наш Smartcalls, но уже немного другая история.
Наконец, облачные IDE. Конечно, пока они едва ли могут сравниться с условной IDEA, но вот с VS Code – легко. Если CPaaS дает разработчику мощный инструмент для работы с кодом, то такой разработчик будет, скорее всего, очень доволен. Нормальный отладчик, умный автокомплит, подсветка кода, кастомные стили, вкладки и т.д. – когда это есть в веб-интерфейсе и быстро работает, то платформа получает дополнительные очки в карму за свою гибкость.
Но наша радость была бы не полной…
… если бы не AI. Машинное обучение дает новые степени свободы коммуникационным платформам, а именно:
Распознавание
Распознавание и синтез речи – кто-то разрабатывает их самостоятельно, но это весьма трудоемко. Можно обратиться за этим к крупным игрокам вроде Google, Amazon, Яндекс – их модели уже очень хорошо распознают человеческую речь, равно как и имитируют ее (кивок в сторону WaveNet).
Автоматизация NLU/NLP
Natural Language Understanding (Processing) – обработка естественного языка – сейчас самая горячая тема в мире коммуникаций. И если бизнес-решение опирается на NLU, то, как вариант, там происходит синтез речи, потом человек что-то отвечает, его речь транслитерируется, этот текст отдается обратно роботу и он, чтобы среагировать, подбирает текст ответа, которые опять-таки надо синтезировать. Звучит не как rocket science, но все же здесь разумно использовать автоматизацию – Google Dialogflow, IBM Watson, Amazon Lex и пр.
Усиление операторов
Когда оператор колл-центра общается с клиентом, можно фоново анализировать речь и давать оператору дополнительную информацию, чтобы он не тратил свое время. Например, клиент может спросить, где ближайший банкомат – система распознает вопрос и выведет ответ на экран оператора; последний просто зачитает ответ, вместо того чтобы просить клиента подождать.
Анализ эмоций
В этом заинтересованы примерно все, но это самое трудное направление в CPaaS на данный момент, потому что люди склонны подавать одну и ту же информацию по-разному, а также довольно часто использовать культурные отсылки в речи. Сейчас многие компании анализируют эмоции, используя текст. Сейчас существуют решения в этом направлении, но нельзя сказать, чтобы они были удачными, так как на анализе только лишь текста далеко не уедешь; очевидно, что эмоции – это не только ЧТО именно сказано, но и КАК. Поэтому убедительный анализ эмоций в реальном времени – это вопрос (ближайшего?) будущего.
Улучшение аудио/видео
Все знают про noise reduction – когда вы говорите по телефону, обученная модель «убирает» фоновые шумы, чтобы собеседник слышал только вас. Иногда при этом страдает голос самого говорящего, так как модели не всегда могут успешно различать, какие частоты относятся к фону, а какие – к голосу. Но в целом это работает уже довольно хорошо. Говоря о картинке, мы знаем, как современные смартфоны делают боке (размывают фон) с помощью AI. Такой подход, но уже в рамках видеозвонков тоже будет востребован – представьте, что вам не надо искать идеальный фон, потому что AI размоет любое окружение за вашей спиной. Хотя почему «представьте» – Skype уже имеет такую функциональность.
Анализ видео
Анализ видеопотока либо видеозаписей помогает понять, что находится в кадре. Пока что это весьма ресурсоемкая задача, поэтому сегодня с ней лучше всех справляются те, у кого очень много вычислительных мощностей – Google, Microsoft и другие крупные игроки.
Аналитика звонков
Сюда относится не только классификация и сегментация данных. Представьте, что у вас есть десятки тысяч записей звонков, и их можно перевести в текст, а потом делать по нему поиск. Но гораздо эффективнее, если AI пройдется по этим записям и распределит их на группы (это звонки о продажах, а это – гарантийные), выявит, где оператор колл-центра вел себя корректно, а где – не очень (плюс можно выявить, как именно вел себя человек, каковы были эмоции), здесь клиент спрашивал только про покупку автомобиля, а здесь – и про автомобиль, и про страховку, и про тест драйв. Можно выудить сколько угодно информации из такого массива данных с помощью machine learning.
Определение автоответчика
Особый случай, но тоже является хорошим примером: в своей платформе мы реализовали определение автоответчика. Сейчас платформа умеет распознавать автоответчики на русском языке – мы обучили модель на множестве звонков, теперь она умеет отличать живого человека от записанного сообщения. Обычные способы определения не очень эффективны (например, по звуковому сигналу), но AI помог нам добиться точности до 99%, при этом на распознавание уходит всего 2 секунды.
Трудности
Машинное обучение требует много ресурсов. И речь не только про вычислительные мощности, но и про людей со специальными навыками – data scientists, которые создают и настраивают модели обучения, а также знают, какие данные нужны. Таких людей непросто найти и их труд дорого стоит. Также на них большой спрос среди крупных игроков, а конкурировать с условным Google в плане найма – это тяжко, хотя и возможно. Поэтому вместо соперничества лучше выбрать сотрудничество с гигантами – большинство CPaaS-игроков используют наработки крупных компаний, и это нормально. С другой стороны, это приводит к тому, что гигант-партнер управляет расходами других игроков – устанавливает/меняет расценки на распознавание и синтез речи (вспоминаем WaveNet от Google). То есть, если вы пользуетесь решениями гиганта, а он вдруг решает изменить расценки, то вы вынуждены сделать то же самое, что может не очень обрадовать ваших пользователей. Добавим сюда то, что вы будете отправлять данные этому гиганту – для некоторых бизнесов это проблема. Однако всегда можно не зависеть только от одного партнера, пользоваться решениями нескольких гигантов со схожей функциональностью. Наконец, такое сотрудничество удобно и выгодно для CPaaS-игроков.
Вместо заключения
Грядут новые технологии, которые повлияют на коммуникации так же, как в свое время повлиял WebRTC – это 5G и AV1.
5G призван воплотить в жизнь принцип «всегда онлайн» – это конечная цель, но ясно, что это случится не в один день. С приходом этой технологии у CPaaS появится больше возможностей, потому что даже те, кто раньше не пользовался мобильной передачей данных, начнут это делать. Инфраструктура коммуникаций изменится, а вместе с ней изменятся и привычные телекоммуникационные бизнесы.
Видеокодек AV1 тоже будет полезен для CPaaS, так как он бесплатен, а значит не надо будет заботиться о лицензиях. Бесплатный кодек, который эффективнее чем H.265 и будет доступен всем, тоже изменит мир коммуникаций.
Будущее происходит на наших глазах, и Voximplant не только следит за происходящим, но и участвует в этом процессе.