Все потоки
Поиск
Написать публикацию
Обновить
2.83

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Помощник или инспектор: по ком звонит робот?

Время на прочтение6 мин
Количество просмотров4K
image

Привет, Хабр! Я тимлид группы продуктовых инноваций в КРОК. Технарём меня назвать можно с большой натяжкой, но зато я много общаюсь с разработчиками, техническими менеджерами, продажниками. И надеюсь, мы друг друга неплохо понимаем. Мы много работаем со стартапами, помогаем им с масштабированием продаж, в том числе через акселератор. Но сейчас не об этом. Неожиданно случилось так, что нам и многим нашим клиентам пришлось быстро менять свои планы и искать новые формы сотрудничества. Да-да, всё из-за вируса. Расскажу вам, какой инструмент мы придумали, чтобы сделать переход на удалёнку безболезненным и эффективным.

Весна 2020. Офлайн под запретом, люди сидят по домам, а работать всё равно нужно. А также – проверять, стимулировать и подбадривать сотрудников. Но даже если ваш босс Многорукий Шива, вряд ли ему хватит конечностей, чтобы держать их на пульсе каждого. Невозможно быть одновременно начальником, помощником, а иногда и психологом для большого коллектива. А почему бы и нет, – решили мы с Infobot и сделали робота-секретаря, робота-мотиватора, робота-трекера! В общем, называйте, как хотите, но это правда всё о нём.
Читать дальше →

Будущее уже здесь: как работают голосовые роботы и что они умеют делать

Время на прочтение7 мин
Количество просмотров8.5K
image

Роботизация рутинных операций, когда для решения простых и одновременно трудоемких задач используются роботы, а не люди — весьма активный тренд. Автоматизируется многое, включая телефонные разговоры с клиентами. Компания Neuro.net занимается созданием технологий, которые дают возможность улучшить возможности роботов.

В этой статье разработчики рассказывают о технологиях и нюансах распознавания пола собеседника по голосу и работе над важными элементами диалога.

Распознавание речи: очень краткий вводный курс

Время на прочтение11 мин
Количество просмотров28K


Рассказать неспециалисту максимально просто о работе компьютерного распознавания речи и преобразовании её в текст — задача почти непосильная. Ни один рассказ об этом не обходится без сложных формул и математических терминов. Мы попробуем максимально понятно и немного упрощённо объяснить, как ваш смартфон понимает речь, когда машины научились распознавать человеческий голос и в каких неожиданных областях используется эта технология.

Необходимое предуведомление: если вы разработчик или, тем более, математик, вы едва ли узнаете из поста что-то новое и даже посетуете на недостаточную научность материала. Наша цель — самым простым образом познакомить непосвящённых читателей с речевыми технологиями и рассказать, как и зачем Toshiba взялась за создание своего голосового ИИ.

Moscow travel hack глазами участников

Время на прочтение10 мин
Количество просмотров2K
Команды Аэроклуб ИТ на Moscow travel hack

Привет! Вы наверняка слышали про первый в России хакатон по теме цифровизации индустрии туризма. Компанию Аэроклуб ИТ представляли на нём сразу две команды, и нам удалось не только отлично провести время, но и разработать прототипы проектов, попробовать силы в необычном для себя формате работы, и пообщаться с другими участниками. Под катом – история одной из наших команд!

Трудности воспитания голосового помощника. Взгляд лингвиста и разработчика

Время на прочтение11 мин
Количество просмотров2.9K
Работу с голосовым помощником часто сравнивают с воспитанием ребёнка. Он постоянно чему-то обучается, повторяя за «старшими». Постепенно овладевает языком и способностью выстраивать общение. Иногда он понимает всё слишком буквально или просто выдаёт что-то несуразное. Всё потому, что обработка языка — сложный и длительный процесс, требующий внимания не одного специалиста. Мы попросили наших коллег лингвиста-разработчика Ивана и ведущего инженера Бассела поделиться интересными случаями из опыта работы с Sky Voice Assistant. Мы задали двум специалистам одинаковые вопросы, чтобы узнать, почему одна математика не может победить при обработке языка, как голосовые помощники учатся шутить и зачем это нужно.

За что ты отвечаешь? Что входит в зону твоей ответственности?


Лингвист

Я отвечаю за всё, что связано с лингвистическим аспектом работы голосового ассистента. Это и анализ вопросов пользователя, и планирование логики ответа, и поиск или создание текста для него. Кроме того, я разрабатывал некоторые сервисы, сильно завязанные на тексте (в том числе погоды, напоминаний, новостей, тостов, словесных игр), и собирал контент для обучения. К нему относится, например, запись различных голосов для активации колонки.

Разработчик

Я отвечаю за мозг нашего чат-бота. Пишу его логику: то, как он принимает вопросы, как отвечает, откуда берет данные, какие сервисы внутри него будут работать. Это сервис для общения и база знаний, чтобы он мог ответить на какие-то вопросы. Он может к ней обратиться и сказать, какая погода, каков курс доллара, заказать тебе такси, установить будильник и т.д.
Читать дальше →

Глазные интерфейсы. Доклад в Яндексе

Время на прочтение5 мин
Количество просмотров4K
В феврале Яндекс провёл вторую конференцию «Я Фронтенд». Мы сделали её непохожей на наши традиционные Я.Субботники — почти все спикеры были не из Яндекса, чтобы зрители могли узнать об опыте разных компаний и разработчиков. За день было съедено 10 кг мармелада, гости посмотрели, как работает робот-курьер Яндекс.Ровер, а вечером поболели за участников контеста Code in the Dark.





Как всегда, мы опубликуем конспекты нескольких докладов с конференции. Иван Бакаидов ibakaidov работает программистом в компании LINKa в Санкт-Петербурге. Он создатель программ альтернативной коммуникации и защитник прав людей без подписи. Ваня выступал на сессии комиссии по делам глухих в чрезвычайных ситуациях гуманитарного саммита ООН в Стамбуле. У нас на конференции он рассказал о «глазных интерфейсах» — поделился опытом разработки детских обучающих игр и приложений, управляемых с помощью устройства отслеживания взгляда и предназначенных для людей с ограниченными возможностями здоровья. Из конспекта и видео вы узнаете о подводных камнях в создании «глазных интерфейсов» и сможете ответить для себя на вопрос, будущее ли это.
Читать дальше →

Речевой бот в банке — худший UX ever

Время на прочтение4 мин
Количество просмотров33K
— Добрый вечер, меня зовут Наталья, чем я могу Вам помочь?
— Здравствуйте, у меня была заблокирована карта.
— Хорошо, назовите свое имя.
— Василий Моржаков.
(вбивает на клавиатуре)
— Ваше кодовое слово?
— Декобраз через Е.
— Простите, Вас не слышно.
— Де-ко-браз, через ЕЕ
— Что-то со связью, извините, можете повторить? (и кажется вешают трубку)

И вот я знаю немного про речевой ИИ, про ботов читал вчера Хабр, но все еще не могу понять, что же происходит.
Читать дальше →

Contact Center AI: третий участник в разговоре – это нормально

Время на прочтение4 мин
Количество просмотров4.3K

Наши клиенты и читатели блога знают про Dialogflow – платформу для создания умных ботов. Именно Dialogflow лежит в основе Contact Center AI (далее CCAI) от корпорации добра. Схематично стек технологии равен DialogFlow + WaveNet (text-to-speech) + voice recognition (speech-to-text), на выходе оно расширяет возможности обычного колл-центра, а именно позволяет оказывать более персонализированные услуги поддержки. Как именно? Рассказываем под катом и даем примеры успешной интеграции, добро пожаловать!

Прорывы #DeepPavlov в 2019 году: обзор и итоги года

Время на прочтение9 мин
Количество просмотров5.7K
Когда еще один плодотворный год подходит к концу, хочется оглянуться назад, подвести итоги и показать, что мы смогли сделать за это время. Библиотеке #DeepPavlov, на минуточку, уже два года, и мы рады, что наше сообщество с каждым днем растет.

За год работы над библиотекой мы достигли:

  • Скачивания библиотеки возросли на треть по сравнению с прошлым годом. Сейчас у DeepPavlov более 100 тысяч установок и более 10 тысяч установок контейнеров.
  • Увеличилось количество коммерческих решений за счет state-of-art технологий, реализованных в DeepPavlov, в разных отраслях от ритейла до промышленности.
  • Вышел первый релиз DeepPavlov Agent.
  • Количество активных участников сообщества возросло в 5 раз.
  • Наша команда студентов и аспирантов была отобрана для участия в Alexa Prize Socialbot Grand Challenge 3.
  • Библиотека стала призером конкурса от компании Google «Powered by TensorFlow Challenge».

Что же помогло достичь таких результатов и почему DeepPavlov — это лучший открытый источник для построения разговорного AI? Расскажем в нашей статье.


Читать дальше →

Строим Telegram-бот в Яндекс.Облаке

Время на прочтение7 мин
Количество просмотров52K
Создание телеграм-бота

Сегодня из подручных материалов мы соберём в Яндекс.Облаке Telegram-бот с использованием Yandex Cloud Functions (или Яндекс-функции — для краткости) и Yandex Object Storage (или Объектное хранилище — для ясности). Код будет на Node.js. Однако, имеется одно пикантное обстоятельство — некая организация под названием, скажем так, РоссКомЦензур (цензура запрещена статьёй 29 Конституции РФ), не позволяет интернет-провайдерам России передавать запросы в Telegram API по адресу: https://api.telegram.org/ (UPD: В РФ уже снята блокировка Telegram API). Ну мы и не будем — нет так нет. Ведь в нашем саквояже имеются т.н. вебхуки — с их помощью мы не делаем запросы на конкретный адрес, а всего лишь шлём свой запрос в качестве ответа на любой запрос к нам. То есть, как в Одессе — отвечаем вопросом на вопрос. Поэтому Telegram API в нашем коде фигурировать не будет.
Читать дальше →

Яндекс-функции рассылают почту

Время на прочтение5 мин
Количество просмотров11K
Яндекс-функции

Сегодня мы создадим т.н. Яндекс-функцию (официальное название Yandex Cloud Functions), которая вступив в сговор с сервисом почтовых рассылок SendGrid будет слать «мыло» мирно спящим пользователям (шутка — я знаю, что все мы против спама).

А ещё я противник (но без фанатизма) традиционных серверов, и сторонник т.н. serverless (бессерверных) решений, поскольку не люблю (да и толком не умею) администрировать сервера, а ещё больше — платить за то время, когда они не нагружены. Другое дело — функции. Их кто-то обслуживает без меня, а я плачу только за вызовы. В начале октября 2019 г. Яндекс представил свои Yandex Cloud Functions — кажется первый в РФ serverless. И что особо приятно — для навыков Алисы они вообще бесплатны, поэтому с тех пор находятся в поле моего периферийного зрения. Но давайте уже приступим.
Читать дальше →

Управление роботом мыслями с Emotiv Insight

Время на прочтение7 мин
Количество просмотров5.1K
image

Управление мыслями чем-либо, кроме собственных конечностей – область завораживающая. Всегда интересно представлять будущее, в котором мы можем взаимодействовать с интернетом не только при помощи пальцев, рта, глаз и ушей.

Если задуматься, то компьютер и телефон – ужасно неэффективные интерфейсы для получения нужной информации. Вы точно осознаете, что хотите узнать: например, текущий курс рубля к доллару. Нажимаете пальцами на определенные области экрана телефона с буквами, целясь каждый раз в нужные точки, после чего смотрите ответ.

Гораздо прекраснее было бы мысленно произнести «Привет, Игорь!», сформулировать мысленно вопрос и получить ответ ухом/глазом/другим способом. Или таким же быстрым способом отправить сообщение другу. В общем, подключить интернет к мозгам.

Раз это можно попробовать на практике уже сейчас, стоит поуправлять чем-то, посмотреть, насколько это удобно, и сделать выводы. Видео с результатами – в конце статьи.
Читать дальше →

Заменяем Google Assistant на нейросеть Порфирьевич и троллим Алису

Время на прочтение4 мин
Количество просмотров52K

Вы уже видели, что вытворяет нейросеть Порфирьевич? Она дописывает текст к любой вашей фразе. И действительно забавные штуки получаются, потому что обучена она на книгах Достоевского, Толстого, Пушкина, Булгакова, Гоголя и Пелевина.

«Озвучить все это дело голосом Левитана — получился бы отличный заменитель гугловского ассистента к новогоднему застолью...» — подумал я. И решил не откладывать это мероприятие на посленовогогода (а то ведь сами понимаете).

Под катом — весь процесс создания опенсорсного голосового ассистента Порфирьевич на исключительно опенсорсном фреймворке Aimybox, и его запуск вместо штатного Google ассистента. Ну и заодно Алису потроллить можно.

Ближайшие события

Алиса помнит всё

Время на прочтение5 мин
Количество просмотров15K


Сегодня мы будем делать навык (приложение) для Алисы — своеобразную записную книжку (или стикер на холодильник): если во фразе пользователя (он же на профессиональном сленге юзер) есть слово "Запомни" — вся фраза сохраняется, и при следующем запуске навыка — будет любезно зачитана пользователю. Код приложения мы пишем на Node.js, для выполнения кода будем использовать Yandex Cloud Functions, а хранить данные — в Firebase Cloud Firestore. В результате у нас должен получиться точно такой же навык как "Запомни и Забудь", опубликованный в каталоге навыков Алисы.
Читать дальше →

CIMON-2: (не)судный день, или как IBM Watson забрался выше облаков

Время на прочтение6 мин
Количество просмотров3.5K

CIMON – Crew Interactive Mobile CompanioN (далее «Саймон») – научная разработка аэрокосмического агентства Airbus и IBM, спонсированная германским центром авиации и космонавтики DLR. В прошлом году его впервые испытали «в бою» на МКС, а в этом месяце начали испытание второй версии помощника. Так как нам интересно все, что связано с высокотехнологичными и прорывными коммуникациями – например, мы уже писал про работу с IBM Watson – то мы не смогли пройти мимо этой новости и подготовили перевод-компиляцию из нескольких зарубежных материалов, чтобы понять самим и сообщить вам – зачем астронавтам условная Алиса/Алекса/{you name it}? Под катом вас ждет хронология событий, цитаты сопричастных и небольшой вывод. Приятного чтения!

Против всех: in-app голосовые помощники

Время на прочтение5 мин
Количество просмотров7.1K

Вы пользуетесь каждый день голосовыми помощниками? Я — нет. Хотя разрабатываю их уже более 7-ми лет!
Такими словами открывалась девелоперская сессия нашей конференции по разговорным технологиям в Москве.

А что, собственно, не так со всеми этими «Алисами», «Марусями» и «Google Ассистентами»? Почему пользователям с ними неудобно, а бизнесу — непонятно? И какая этому всему есть open source альтернатива?

Давайте разбираться

Поговорим о жизни? Команда DREAM о соревновании Alexa Prize Socialbot Challenge 3

Время на прочтение3 мин
Количество просмотров1.8K
В июне этого года компания Amazon опубликовала шорт-лист конкурса Alexa Prize Socialbot Grand Challenge 3. Из 375 заявок комитет Alexa Prize отобрал 10 финалистов, в том числе единственную из России команду МФТИ. Эти счастливчики — команда DREAM. Ребята являются сотрудниками лаборатории нейронных систем и глубокого обучения МФТИ. Но как продвигается работа, и над чем трудится команда DREAM?


Слева на право: Идрис Юсупов, Диляра Баймурзина, капитан команды Юрий Куратов, Денис Кузнецов, Дмитрий Карпов, Ле Ань, руководитель Михаил Бурцев.
Читать дальше →

Голосовые приложения: миллиардный рынок, который в России не замечают

Время на прочтение2 мин
Количество просмотров10K
Анекдот как предисловие:
Купил Петька автомат по продаже газировки и поехал ставить в Сахару. Через год встречает его Василий Иванович и спрашивает: — идея бомба была, а ты что такой хмурый?
— Понимаешь, Василий Иванович, они как увидят в пустыне автомат с газировкой — сразу кричат, мираж, мираж и мимо проходят.


1. Невидимый для обывателей рынок


Рынок аппаратных устройств для общения голосом показывает самый большой рост за всю историю аппаратной электроники.



Google Assistant предустановлен на 1 миллиарде устройств, теперь давайте сравним с рынком мобильных устройств и приложений:


Читать дальше →

Как Мефодий стал Анной: опыт разработки и запуска классификаторов голосовых сообщений. Часть 3

Время на прочтение4 мин
Количество просмотров922

Цели серии статей


Напомню, что в рамках первого и второго поста мы получили модель классификации обращений в техподдержку и научились выводить её в продуктив, не собирая все грабли. Пришли к выводам, что прежде, чем строить сложные модели, нужно понять полноту и точность своих данных. А вывод №2 стал таким: пойми пользователя своего и тогда запустить сервис станет в разы проще.

В этой статье мы поговорим о втором кейсе, который нам помогла решить голосовой робот Анна.

Кейс №2. Задача и данные


После того, как мы поняли логику людей и набили шишки при внедрении первого голосового классификатора, мы вдохновились на решение ещё одной задачи.

Проблематика.


34% звонков из отдела продаж переводятся в службу техподдержки. Хочется сократить количество переводов между отделами. Для начала разберёмся, как работало раньше?
Читать дальше →

Интерактивный аудиоспектакль — новая эра игр для голосовых ассистентов

Время на прочтение2 мин
Количество просмотров1.9K
В России многие пользователи интернета составили представление о рынке голосовых ассистентов благодаря приложениям Яндекс Алиса и Google Assistent. На самом деле рынок намного шире и находится в начальной стадии развития по экспоненциальной кривой:



Будущее уже наступило и продолжает гигантский рост, оставаясь при этом незаметным для большинства населения, в том числе и для продвинутых пользователей.