Обновить
44.61

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Распознавание речи: очень краткий вводный курс

Время на прочтение11 мин
Охват и читатели31K


Рассказать неспециалисту максимально просто о работе компьютерного распознавания речи и преобразовании её в текст — задача почти непосильная. Ни один рассказ об этом не обходится без сложных формул и математических терминов. Мы попробуем максимально понятно и немного упрощённо объяснить, как ваш смартфон понимает речь, когда машины научились распознавать человеческий голос и в каких неожиданных областях используется эта технология.

Необходимое предуведомление: если вы разработчик или, тем более, математик, вы едва ли узнаете из поста что-то новое и даже посетуете на недостаточную научность материала. Наша цель — самым простым образом познакомить непосвящённых читателей с речевыми технологиями и рассказать, как и зачем Toshiba взялась за создание своего голосового ИИ.

Moscow travel hack глазами участников

Время на прочтение10 мин
Охват и читатели2K
Команды Аэроклуб ИТ на Moscow travel hack

Привет! Вы наверняка слышали про первый в России хакатон по теме цифровизации индустрии туризма. Компанию Аэроклуб ИТ представляли на нём сразу две команды, и нам удалось не только отлично провести время, но и разработать прототипы проектов, попробовать силы в необычном для себя формате работы, и пообщаться с другими участниками. Под катом – история одной из наших команд!

Трудности воспитания голосового помощника. Взгляд лингвиста и разработчика

Время на прочтение11 мин
Охват и читатели3.1K
Работу с голосовым помощником часто сравнивают с воспитанием ребёнка. Он постоянно чему-то обучается, повторяя за «старшими». Постепенно овладевает языком и способностью выстраивать общение. Иногда он понимает всё слишком буквально или просто выдаёт что-то несуразное. Всё потому, что обработка языка — сложный и длительный процесс, требующий внимания не одного специалиста. Мы попросили наших коллег лингвиста-разработчика Ивана и ведущего инженера Бассела поделиться интересными случаями из опыта работы с Sky Voice Assistant. Мы задали двум специалистам одинаковые вопросы, чтобы узнать, почему одна математика не может победить при обработке языка, как голосовые помощники учатся шутить и зачем это нужно.

За что ты отвечаешь? Что входит в зону твоей ответственности?


Лингвист

Я отвечаю за всё, что связано с лингвистическим аспектом работы голосового ассистента. Это и анализ вопросов пользователя, и планирование логики ответа, и поиск или создание текста для него. Кроме того, я разрабатывал некоторые сервисы, сильно завязанные на тексте (в том числе погоды, напоминаний, новостей, тостов, словесных игр), и собирал контент для обучения. К нему относится, например, запись различных голосов для активации колонки.

Разработчик

Я отвечаю за мозг нашего чат-бота. Пишу его логику: то, как он принимает вопросы, как отвечает, откуда берет данные, какие сервисы внутри него будут работать. Это сервис для общения и база знаний, чтобы он мог ответить на какие-то вопросы. Он может к ней обратиться и сказать, какая погода, каков курс доллара, заказать тебе такси, установить будильник и т.д.
Читать дальше →

Глазные интерфейсы. Доклад в Яндексе

Время на прочтение5 мин
Охват и читатели4.1K
В феврале Яндекс провёл вторую конференцию «Я Фронтенд». Мы сделали её непохожей на наши традиционные Я.Субботники — почти все спикеры были не из Яндекса, чтобы зрители могли узнать об опыте разных компаний и разработчиков. За день было съедено 10 кг мармелада, гости посмотрели, как работает робот-курьер Яндекс.Ровер, а вечером поболели за участников контеста Code in the Dark.





Как всегда, мы опубликуем конспекты нескольких докладов с конференции. Иван Бакаидов ibakaidov работает программистом в компании LINKa в Санкт-Петербурге. Он создатель программ альтернативной коммуникации и защитник прав людей без подписи. Ваня выступал на сессии комиссии по делам глухих в чрезвычайных ситуациях гуманитарного саммита ООН в Стамбуле. У нас на конференции он рассказал о «глазных интерфейсах» — поделился опытом разработки детских обучающих игр и приложений, управляемых с помощью устройства отслеживания взгляда и предназначенных для людей с ограниченными возможностями здоровья. Из конспекта и видео вы узнаете о подводных камнях в создании «глазных интерфейсов» и сможете ответить для себя на вопрос, будущее ли это.
Читать дальше →

Речевой бот в банке — худший UX ever

Время на прочтение4 мин
Охват и читатели33K
— Добрый вечер, меня зовут Наталья, чем я могу Вам помочь?
— Здравствуйте, у меня была заблокирована карта.
— Хорошо, назовите свое имя.
— Василий Моржаков.
(вбивает на клавиатуре)
— Ваше кодовое слово?
— Декобраз через Е.
— Простите, Вас не слышно.
— Де-ко-браз, через ЕЕ
— Что-то со связью, извините, можете повторить? (и кажется вешают трубку)

И вот я знаю немного про речевой ИИ, про ботов читал вчера Хабр, но все еще не могу понять, что же происходит.
Читать дальше →

Contact Center AI: третий участник в разговоре – это нормально

Время на прочтение4 мин
Охват и читатели4.5K

Наши клиенты и читатели блога знают про Dialogflow – платформу для создания умных ботов. Именно Dialogflow лежит в основе Contact Center AI (далее CCAI) от корпорации добра. Схематично стек технологии равен DialogFlow + WaveNet (text-to-speech) + voice recognition (speech-to-text), на выходе оно расширяет возможности обычного колл-центра, а именно позволяет оказывать более персонализированные услуги поддержки. Как именно? Рассказываем под катом и даем примеры успешной интеграции, добро пожаловать!

Прорывы #DeepPavlov в 2019 году: обзор и итоги года

Время на прочтение9 мин
Охват и читатели6K
Когда еще один плодотворный год подходит к концу, хочется оглянуться назад, подвести итоги и показать, что мы смогли сделать за это время. Библиотеке #DeepPavlov, на минуточку, уже два года, и мы рады, что наше сообщество с каждым днем растет.

За год работы над библиотекой мы достигли:

  • Скачивания библиотеки возросли на треть по сравнению с прошлым годом. Сейчас у DeepPavlov более 100 тысяч установок и более 10 тысяч установок контейнеров.
  • Увеличилось количество коммерческих решений за счет state-of-art технологий, реализованных в DeepPavlov, в разных отраслях от ритейла до промышленности.
  • Вышел первый релиз DeepPavlov Agent.
  • Количество активных участников сообщества возросло в 5 раз.
  • Наша команда студентов и аспирантов была отобрана для участия в Alexa Prize Socialbot Grand Challenge 3.
  • Библиотека стала призером конкурса от компании Google «Powered by TensorFlow Challenge».

Что же помогло достичь таких результатов и почему DeepPavlov — это лучший открытый источник для построения разговорного AI? Расскажем в нашей статье.


Читать дальше →

Строим Telegram-бот в Яндекс.Облаке

Время на прочтение7 мин
Охват и читатели58K
Создание телеграм-бота

Сегодня из подручных материалов мы соберём в Яндекс.Облаке Telegram-бот с использованием Yandex Cloud Functions (или Яндекс-функции — для краткости) и Yandex Object Storage (или Объектное хранилище — для ясности). Код будет на Node.js. Однако, имеется одно пикантное обстоятельство — некая организация под названием, скажем так, РоссКомЦензур (цензура запрещена статьёй 29 Конституции РФ), не позволяет интернет-провайдерам России передавать запросы в Telegram API по адресу: https://api.telegram.org/ (UPD: В РФ уже снята блокировка Telegram API). Ну мы и не будем — нет так нет. Ведь в нашем саквояже имеются т.н. вебхуки — с их помощью мы не делаем запросы на конкретный адрес, а всего лишь шлём свой запрос в качестве ответа на любой запрос к нам. То есть, как в Одессе — отвечаем вопросом на вопрос. Поэтому Telegram API в нашем коде фигурировать не будет.
Читать дальше →

Яндекс-функции рассылают почту

Время на прочтение5 мин
Охват и читатели11K
Яндекс-функции

Сегодня мы создадим т.н. Яндекс-функцию (официальное название Yandex Cloud Functions), которая вступив в сговор с сервисом почтовых рассылок SendGrid будет слать «мыло» мирно спящим пользователям (шутка — я знаю, что все мы против спама).

А ещё я противник (но без фанатизма) традиционных серверов, и сторонник т.н. serverless (бессерверных) решений, поскольку не люблю (да и толком не умею) администрировать сервера, а ещё больше — платить за то время, когда они не нагружены. Другое дело — функции. Их кто-то обслуживает без меня, а я плачу только за вызовы. В начале октября 2019 г. Яндекс представил свои Yandex Cloud Functions — кажется первый в РФ serverless. И что особо приятно — для навыков Алисы они вообще бесплатны, поэтому с тех пор находятся в поле моего периферийного зрения. Но давайте уже приступим.
Читать дальше →

Управление роботом мыслями с Emotiv Insight

Время на прочтение7 мин
Охват и читатели5.4K
image

Управление мыслями чем-либо, кроме собственных конечностей – область завораживающая. Всегда интересно представлять будущее, в котором мы можем взаимодействовать с интернетом не только при помощи пальцев, рта, глаз и ушей.

Если задуматься, то компьютер и телефон – ужасно неэффективные интерфейсы для получения нужной информации. Вы точно осознаете, что хотите узнать: например, текущий курс рубля к доллару. Нажимаете пальцами на определенные области экрана телефона с буквами, целясь каждый раз в нужные точки, после чего смотрите ответ.

Гораздо прекраснее было бы мысленно произнести «Привет, Игорь!», сформулировать мысленно вопрос и получить ответ ухом/глазом/другим способом. Или таким же быстрым способом отправить сообщение другу. В общем, подключить интернет к мозгам.

Раз это можно попробовать на практике уже сейчас, стоит поуправлять чем-то, посмотреть, насколько это удобно, и сделать выводы. Видео с результатами – в конце статьи.
Читать дальше →

Заменяем Google Assistant на нейросеть Порфирьевич и троллим Алису

Время на прочтение4 мин
Охват и читатели53K

Вы уже видели, что вытворяет нейросеть Порфирьевич? Она дописывает текст к любой вашей фразе. И действительно забавные штуки получаются, потому что обучена она на книгах Достоевского, Толстого, Пушкина, Булгакова, Гоголя и Пелевина.

«Озвучить все это дело голосом Левитана — получился бы отличный заменитель гугловского ассистента к новогоднему застолью...» — подумал я. И решил не откладывать это мероприятие на посленовогогода (а то ведь сами понимаете).

Под катом — весь процесс создания опенсорсного голосового ассистента Порфирьевич на исключительно опенсорсном фреймворке Aimybox, и его запуск вместо штатного Google ассистента. Ну и заодно Алису потроллить можно.

Алиса помнит всё

Время на прочтение5 мин
Охват и читатели16K


Сегодня мы будем делать навык (приложение) для Алисы — своеобразную записную книжку (или стикер на холодильник): если во фразе пользователя (он же на профессиональном сленге юзер) есть слово "Запомни" — вся фраза сохраняется, и при следующем запуске навыка — будет любезно зачитана пользователю. Код приложения мы пишем на Node.js, для выполнения кода будем использовать Yandex Cloud Functions, а хранить данные — в Firebase Cloud Firestore. В результате у нас должен получиться точно такой же навык как "Запомни и Забудь", опубликованный в каталоге навыков Алисы.
Читать дальше →

CIMON-2: (не)судный день, или как IBM Watson забрался выше облаков

Время на прочтение6 мин
Охват и читатели3.6K

CIMON – Crew Interactive Mobile CompanioN (далее «Саймон») – научная разработка аэрокосмического агентства Airbus и IBM, спонсированная германским центром авиации и космонавтики DLR. В прошлом году его впервые испытали «в бою» на МКС, а в этом месяце начали испытание второй версии помощника. Так как нам интересно все, что связано с высокотехнологичными и прорывными коммуникациями – например, мы уже писал про работу с IBM Watson – то мы не смогли пройти мимо этой новости и подготовили перевод-компиляцию из нескольких зарубежных материалов, чтобы понять самим и сообщить вам – зачем астронавтам условная Алиса/Алекса/{you name it}? Под катом вас ждет хронология событий, цитаты сопричастных и небольшой вывод. Приятного чтения!

Ближайшие события

Против всех: in-app голосовые помощники

Время на прочтение5 мин
Охват и читатели7.3K

Вы пользуетесь каждый день голосовыми помощниками? Я — нет. Хотя разрабатываю их уже более 7-ми лет!
Такими словами открывалась девелоперская сессия нашей конференции по разговорным технологиям в Москве.

А что, собственно, не так со всеми этими «Алисами», «Марусями» и «Google Ассистентами»? Почему пользователям с ними неудобно, а бизнесу — непонятно? И какая этому всему есть open source альтернатива?

Давайте разбираться

Поговорим о жизни? Команда DREAM о соревновании Alexa Prize Socialbot Challenge 3

Время на прочтение3 мин
Охват и читатели1.9K
В июне этого года компания Amazon опубликовала шорт-лист конкурса Alexa Prize Socialbot Grand Challenge 3. Из 375 заявок комитет Alexa Prize отобрал 10 финалистов, в том числе единственную из России команду МФТИ. Эти счастливчики — команда DREAM. Ребята являются сотрудниками лаборатории нейронных систем и глубокого обучения МФТИ. Но как продвигается работа, и над чем трудится команда DREAM?


Слева на право: Идрис Юсупов, Диляра Баймурзина, капитан команды Юрий Куратов, Денис Кузнецов, Дмитрий Карпов, Ле Ань, руководитель Михаил Бурцев.
Читать дальше →

Голосовые приложения: миллиардный рынок, который в России не замечают

Время на прочтение2 мин
Охват и читатели10K
Анекдот как предисловие:
Купил Петька автомат по продаже газировки и поехал ставить в Сахару. Через год встречает его Василий Иванович и спрашивает: — идея бомба была, а ты что такой хмурый?
— Понимаешь, Василий Иванович, они как увидят в пустыне автомат с газировкой — сразу кричат, мираж, мираж и мимо проходят.


1. Невидимый для обывателей рынок


Рынок аппаратных устройств для общения голосом показывает самый большой рост за всю историю аппаратной электроники.



Google Assistant предустановлен на 1 миллиарде устройств, теперь давайте сравним с рынком мобильных устройств и приложений:


Читать дальше →

Как Мефодий стал Анной: опыт разработки и запуска классификаторов голосовых сообщений. Часть 3

Время на прочтение4 мин
Охват и читатели954

Цели серии статей


Напомню, что в рамках первого и второго поста мы получили модель классификации обращений в техподдержку и научились выводить её в продуктив, не собирая все грабли. Пришли к выводам, что прежде, чем строить сложные модели, нужно понять полноту и точность своих данных. А вывод №2 стал таким: пойми пользователя своего и тогда запустить сервис станет в разы проще.

В этой статье мы поговорим о втором кейсе, который нам помогла решить голосовой робот Анна.

Кейс №2. Задача и данные


После того, как мы поняли логику людей и набили шишки при внедрении первого голосового классификатора, мы вдохновились на решение ещё одной задачи.

Проблематика.


34% звонков из отдела продаж переводятся в службу техподдержки. Хочется сократить количество переводов между отделами. Для начала разберёмся, как работало раньше?
Читать дальше →

Интерактивный аудиоспектакль — новая эра игр для голосовых ассистентов

Время на прочтение2 мин
Охват и читатели1.9K
В России многие пользователи интернета составили представление о рынке голосовых ассистентов благодаря приложениям Яндекс Алиса и Google Assistent. На самом деле рынок намного шире и находится в начальной стадии развития по экспоненциальной кривой:



Будущее уже наступило и продолжает гигантский рост, оставаясь при этом незаметным для большинства населения, в том числе и для продвинутых пользователей.

Как Мефодий стал Анной: опыт разработки и запуска классификаторов голосовых сообщений. Часть 2

Время на прочтение4 мин
Охват и читатели1.3K

Цель и задача


Напомню, что в рамках первой статьи мы получили модель с удовлетворяющим нас качеством и пришли к выводу, что не стоит сразу строить нейронные сети, на некорректных данных большой пользы от этого не будет. Чтобы избежать потери времени и своих сил, достаточно проанализировать ошибки на “простых” моделях.

В этой статье мы поговорим о выводе в продуктив рабочей модели.
Читать дальше →

Как Мефодий стал Анной: опыт разработки и запуска классификаторов голосовых сообщений. Часть 1

Время на прочтение5 мин
Охват и читатели1.7K

Цель и задача


В серии статей рассмотрим классификаторы голосовых обращений, зачем они нужны, как их быстро вывести в продуктив. Расскажу про подходы, которые позволят сократить время от постановки задачи до запуска модели и получения бизнес-результата.
По этой статье можно посмотреть доклад по ссылке


Как Мефодий стал Анной. Серия №1


Начнём!

Читать дальше →