Обновить
20.2

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Яндекс.Функции, Sublime Text и навыки для Алисы

Время на прочтение4 мин
Количество просмотров2.9K
27 июня Яндекс проводил онлайн-хакатон по разработке навыков для Алисы.

Решил и я принять в нем участие. Ранее навыки для Алисы я уже делал, но хостил их все на Google App Engine. Тут же я решил изучить что-то новое в рамках Хакатон. Яндекс активно продвигает свои Функции в Яндекс.Облаке для разработки навыков. Для навыков они бесплатны (правда, бесплатно не всё).
Вот и нашлась тема для изучения

Сущности для платформы Яндекс.Диалоги

Время на прочтение4 мин
Количество просмотров2.8K
В прошлую субботу состоялся онлайн-хакатон по разработке навыков Алисы. Жаль, что никто не написал здесь об итогах, любопытно почитать истории победителей. Но раз желающих не нашлось, то поделюсь своей историей.

Я делаю голосовой интерфейс для управления брокерским счётом, уже писал об этом на Хабре — Алиса, купи акции Яндекс. В какой-то момент мне понадобилось извлекать из запроса цену в разных валютах. Уверен, я не первый, кто столкнулся такой задачей, поэтому попытался найти готовые интенты или именованные сущности на GitHub, но ничего не нашёл. На носу был хакатон, много разработчиков в одном месте, подумал я, если каждый поделится своими наработками, то сущностей наберётся на целую библиотеку. Так родилась идея для репозитория «библиотека сущностей».
Читать дальше →

Голосовой помощник для операций на Московской бирже: «Алиса, купи акции Яндекс»

Время на прочтение5 мин
Количество просмотров4K
— Алиса, купи одну акцию Яндекс.
— Заявка на покупку Яндекс по рыночной цене, тикер: YNDX, количество акций: 1, для подтверждения скажите «подтверждаю», для отмены скажите «нет».
— Подтверждаю.
— Заявка исполнена.


Я делаю голосовой интерфейс для совершения операций с ценными бумагами на Московской бирже с открытым исходным кодом. Идею вынашивал с детства. Помню, впервые увидел голосовой помощник в каком-то фильме около двадцати лет назад, в то время у меня даже проводного телефона не было в доме. А сейчас у меня безлимитное подключение к сети Интернет, брокерский счёт, которым я могу управлять через смартфон. За двадцать лет технологии стали доступнее.
Читать дальше →

Управление Яндекс.Станцией и другими колонками с Алисой из Home Assistant

Время на прочтение4 мин
Количество просмотров129K

Мы привыкли называть умными устройства, которыми можем управлять, не вставая с дивана. Включить лампочку, вентилятор, кофеварку или стиральную машину.


Колонки с Яндекс Алисой хоть и называются умными, но вы не можете изменить громкость не находясь рядом с колонкой (орать через всю комнату не считается). Вы не можете перемотать песню из мобильного приложения Яндекса. Или остановить сказку, запущенную на колонке в детской, из своей кровати в спальне.


В январе 2020 кто-то обнаружил, что Яндекс.Станция поддерживает некий локальный протокол. На GitHub начали появляться проекты по управлению Яндекс.Станцией. Мне хватило пару часов, чтоб разобраться и выпустить первую версию компонента для Home Assistant. Это достаточно популярная система домашней автоматизации, написанная на языке Python.


На сегодняшний день компонент поддерживает управление всеми колонками с Яндекс Алисой и при желании может выглядеть так:


Читать дальше →

Голосовые навыки с нуля: как Алиса учила песни Цоя, не давала уснуть за рулем и принесла мне шесть наград от Яндекса

Время на прочтение10 мин
Количество просмотров8.8K
Необязательно посвящать годы изучению разговорных интерфейсов, чтобы у тебя получился крутой голосовой навык. Меня зовут Сергей Кул, и я считаю, что каждый навык – это маленький стартап: либо выстрелит, либо нет. Я создал первый голосовой скилл меньше года назад, ничего не зная о разработке ботов и голосовом UX. Теперь у меня пять Премий Алисы и специальный приз от Яндекса. Рассказываю, как так вышло и чему я научился, осваивая вместе с Алисой JavaScript, формулу Видмарка и песни «Кино».



Как создавать навыки без специальных навыков


1 июля 2019 года я начал активно искать какое-то новое направление для бизнеса в интернете. Работа в IT приелась, хотелось сменить деятельность. И вдруг наткнулся на статью, что для голосового ассистента Алисы сторонние разработчики могут делать свои навыки. Это было озарение! Понял, что хочу освоить такую разработку и закрепиться в этой нише. Что на тот момент я знал про голосовые интерфейсы или разработку ботов? НИЧЕГО! Совершенно! Но решил в течение одного месяца всё изучить и сделать первый навык.

Что умеет Dialogflow?

Время на прочтение11 мин
Количество просмотров43K


26 ноября в Москве прошла третья в своей истории Conversations – конференция по разговорному искусственному интеллекту для разработчиков и бизнеса, на которой был представлен новый доклад компании «Аэроклуб ИТ». В прошлый раз речь шла об одном из наших исследовательских проектов, теперь же рассказ был сосредоточен вокруг инструмента, который мы применяем для чат-ботов. Сперва я планировал просто написать статью по мотивам доклада, но получился целый tutorial, так что под катом вас ждёт довольно подробное описание некоторых возможностей Dialogflow, и даже попадутся неочевидные «хаки».
Читать дальше →

Разработка приватных навыков для Алисы. О чём не учат в Школе Алисы

Время на прочтение4 мин
Количество просмотров10K
Каждый раз, когда заканчиваю генеральную уборку, то появляется ощущение, как будто что-то забыл. На прошлой недели я записал на бумаге все задачи, которые надо сделать, чтобы убрать квартиру полностью — получилось три листа формата А4.

список работ на трёх листах А4
Так выглядит список задач по уборке однокомнатной квартиры.

Я активный пользователь Яндекс.Станции, поэтому решил запихнуть этот огромный список в Алису, чтобы во время генеральной уборки спрашивать у «девчонки в коробчонке», что делать дальше. Варианты названия для навыка крутились вокруг слов прораб и дворецкий. Давно мечтал о доме с дворецким, поэтому остановился на названии «Мой Дворецкий» и активационной фразе: «Алиса, спроси у моего дворецкого, что делать дальше».
Читать дальше →

Рисуем речь: Software Automatic Mouth

Время на прочтение9 мин
Количество просмотров14K
Прошлогоднюю статью «Рисуем звук» я завершил признанием: «А можно ли нарисовать звук с чистого листа, не обводя спектрограмму аудиозаписи? Скажу честно, у меня не полу­чилось.» Но недавно я узнал про S.A.M. — выпущенный в 1982 г. компанией Don’t Ask Software, он стал первой коммерчески успешной программой для синтеза речи на ПК. В середине 2000-х немецкие демосценщики Tobias Korbmacher и Sebastian Macke взяли ассемблерный листинг S.A.M. для Commodore 64 и сконвертировали его в нечитаемый, но работоспособный код на Си; затем в 2014 г. британец Vidar Hokstad постарался привести код на Си в читаемый вид — вручную давая переменным осмыс­ленные названия и заменяя goto на циклы и ветвления; и наконец, в 2017 г. ещё один немец Christian Schiffler переписал код с Си на JavaScript. Испробовать его в действии как «чёрный ящик» можно на discordier.github.io/sam.

По-моему, примитивный синтезатор речи на JavaScript — самый удобный подопытный образец для тех, кто хочет разобраться, как в целом работает синтез речи. Мой форк S.A.M. с существенно почищенным кодом и комментариями доступен на github.com/tyomitch/sam. К сожалению, у предыдущих авторов интерес к S.A.M. успел угаснуть, и им сейчас не до разбора пулл-реквестов в хобби-проект многолетней давности.

S.A.M. состоит из четырёх функциональных компонентов:

  1. Reciter переводит текст на английском в фонемную запись: например, «A LITTLE TOO LOW» (пример из приложенной к S.A.M. демо-программы) превращается в «AH LIHTUL TUW5 LOW».
  2. Parser превращает фонемную запись в фонетическую: из «AH LIHTUL TUW5 LOW» получается "AH, ,L,IH,DX,AX,LX, ,T,*,*,UX,WX, ,L,OW,WX". Для каждого выводимого фона Parser задаёт также длительность и тон.
  3. Renderer строит по фонетической записи массив частот, амплитуд и прочих акустических характеристик;
  4. Последний, безымянный компонент (функция ProcessFrames) превращает массив частот и амплитуд в PCM-поток для аудиовывода.

В этой статье я разберу все четыре компонента по очереди.
Читать дальше →

Помощник или инспектор: по ком звонит робот?

Время на прочтение6 мин
Количество просмотров4K
image

Привет, Хабр! Я тимлид группы продуктовых инноваций в КРОК. Технарём меня назвать можно с большой натяжкой, но зато я много общаюсь с разработчиками, техническими менеджерами, продажниками. И надеюсь, мы друг друга неплохо понимаем. Мы много работаем со стартапами, помогаем им с масштабированием продаж, в том числе через акселератор. Но сейчас не об этом. Неожиданно случилось так, что нам и многим нашим клиентам пришлось быстро менять свои планы и искать новые формы сотрудничества. Да-да, всё из-за вируса. Расскажу вам, какой инструмент мы придумали, чтобы сделать переход на удалёнку безболезненным и эффективным.

Весна 2020. Офлайн под запретом, люди сидят по домам, а работать всё равно нужно. А также – проверять, стимулировать и подбадривать сотрудников. Но даже если ваш босс Многорукий Шива, вряд ли ему хватит конечностей, чтобы держать их на пульсе каждого. Невозможно быть одновременно начальником, помощником, а иногда и психологом для большого коллектива. А почему бы и нет, – решили мы с Infobot и сделали робота-секретаря, робота-мотиватора, робота-трекера! В общем, называйте, как хотите, но это правда всё о нём.
Читать дальше →

Будущее уже здесь: как работают голосовые роботы и что они умеют делать

Время на прочтение7 мин
Количество просмотров8.6K
image

Роботизация рутинных операций, когда для решения простых и одновременно трудоемких задач используются роботы, а не люди — весьма активный тренд. Автоматизируется многое, включая телефонные разговоры с клиентами. Компания Neuro.net занимается созданием технологий, которые дают возможность улучшить возможности роботов.

В этой статье разработчики рассказывают о технологиях и нюансах распознавания пола собеседника по голосу и работе над важными элементами диалога.

Распознавание речи: очень краткий вводный курс

Время на прочтение11 мин
Количество просмотров28K


Рассказать неспециалисту максимально просто о работе компьютерного распознавания речи и преобразовании её в текст — задача почти непосильная. Ни один рассказ об этом не обходится без сложных формул и математических терминов. Мы попробуем максимально понятно и немного упрощённо объяснить, как ваш смартфон понимает речь, когда машины научились распознавать человеческий голос и в каких неожиданных областях используется эта технология.

Необходимое предуведомление: если вы разработчик или, тем более, математик, вы едва ли узнаете из поста что-то новое и даже посетуете на недостаточную научность материала. Наша цель — самым простым образом познакомить непосвящённых читателей с речевыми технологиями и рассказать, как и зачем Toshiba взялась за создание своего голосового ИИ.

Moscow travel hack глазами участников

Время на прочтение10 мин
Количество просмотров2K
Команды Аэроклуб ИТ на Moscow travel hack

Привет! Вы наверняка слышали про первый в России хакатон по теме цифровизации индустрии туризма. Компанию Аэроклуб ИТ представляли на нём сразу две команды, и нам удалось не только отлично провести время, но и разработать прототипы проектов, попробовать силы в необычном для себя формате работы, и пообщаться с другими участниками. Под катом – история одной из наших команд!

Трудности воспитания голосового помощника. Взгляд лингвиста и разработчика

Время на прочтение11 мин
Количество просмотров2.9K
Работу с голосовым помощником часто сравнивают с воспитанием ребёнка. Он постоянно чему-то обучается, повторяя за «старшими». Постепенно овладевает языком и способностью выстраивать общение. Иногда он понимает всё слишком буквально или просто выдаёт что-то несуразное. Всё потому, что обработка языка — сложный и длительный процесс, требующий внимания не одного специалиста. Мы попросили наших коллег лингвиста-разработчика Ивана и ведущего инженера Бассела поделиться интересными случаями из опыта работы с Sky Voice Assistant. Мы задали двум специалистам одинаковые вопросы, чтобы узнать, почему одна математика не может победить при обработке языка, как голосовые помощники учатся шутить и зачем это нужно.

За что ты отвечаешь? Что входит в зону твоей ответственности?


Лингвист

Я отвечаю за всё, что связано с лингвистическим аспектом работы голосового ассистента. Это и анализ вопросов пользователя, и планирование логики ответа, и поиск или создание текста для него. Кроме того, я разрабатывал некоторые сервисы, сильно завязанные на тексте (в том числе погоды, напоминаний, новостей, тостов, словесных игр), и собирал контент для обучения. К нему относится, например, запись различных голосов для активации колонки.

Разработчик

Я отвечаю за мозг нашего чат-бота. Пишу его логику: то, как он принимает вопросы, как отвечает, откуда берет данные, какие сервисы внутри него будут работать. Это сервис для общения и база знаний, чтобы он мог ответить на какие-то вопросы. Он может к ней обратиться и сказать, какая погода, каков курс доллара, заказать тебе такси, установить будильник и т.д.
Читать дальше →

Ближайшие события

Глазные интерфейсы. Доклад в Яндексе

Время на прочтение5 мин
Количество просмотров4K
В феврале Яндекс провёл вторую конференцию «Я Фронтенд». Мы сделали её непохожей на наши традиционные Я.Субботники — почти все спикеры были не из Яндекса, чтобы зрители могли узнать об опыте разных компаний и разработчиков. За день было съедено 10 кг мармелада, гости посмотрели, как работает робот-курьер Яндекс.Ровер, а вечером поболели за участников контеста Code in the Dark.





Как всегда, мы опубликуем конспекты нескольких докладов с конференции. Иван Бакаидов ibakaidov работает программистом в компании LINKa в Санкт-Петербурге. Он создатель программ альтернативной коммуникации и защитник прав людей без подписи. Ваня выступал на сессии комиссии по делам глухих в чрезвычайных ситуациях гуманитарного саммита ООН в Стамбуле. У нас на конференции он рассказал о «глазных интерфейсах» — поделился опытом разработки детских обучающих игр и приложений, управляемых с помощью устройства отслеживания взгляда и предназначенных для людей с ограниченными возможностями здоровья. Из конспекта и видео вы узнаете о подводных камнях в создании «глазных интерфейсов» и сможете ответить для себя на вопрос, будущее ли это.
Читать дальше →

Речевой бот в банке — худший UX ever

Время на прочтение4 мин
Количество просмотров33K
— Добрый вечер, меня зовут Наталья, чем я могу Вам помочь?
— Здравствуйте, у меня была заблокирована карта.
— Хорошо, назовите свое имя.
— Василий Моржаков.
(вбивает на клавиатуре)
— Ваше кодовое слово?
— Декобраз через Е.
— Простите, Вас не слышно.
— Де-ко-браз, через ЕЕ
— Что-то со связью, извините, можете повторить? (и кажется вешают трубку)

И вот я знаю немного про речевой ИИ, про ботов читал вчера Хабр, но все еще не могу понять, что же происходит.
Читать дальше →

Contact Center AI: третий участник в разговоре – это нормально

Время на прочтение4 мин
Количество просмотров4.3K

Наши клиенты и читатели блога знают про Dialogflow – платформу для создания умных ботов. Именно Dialogflow лежит в основе Contact Center AI (далее CCAI) от корпорации добра. Схематично стек технологии равен DialogFlow + WaveNet (text-to-speech) + voice recognition (speech-to-text), на выходе оно расширяет возможности обычного колл-центра, а именно позволяет оказывать более персонализированные услуги поддержки. Как именно? Рассказываем под катом и даем примеры успешной интеграции, добро пожаловать!

Прорывы #DeepPavlov в 2019 году: обзор и итоги года

Время на прочтение9 мин
Количество просмотров5.7K
Когда еще один плодотворный год подходит к концу, хочется оглянуться назад, подвести итоги и показать, что мы смогли сделать за это время. Библиотеке #DeepPavlov, на минуточку, уже два года, и мы рады, что наше сообщество с каждым днем растет.

За год работы над библиотекой мы достигли:

  • Скачивания библиотеки возросли на треть по сравнению с прошлым годом. Сейчас у DeepPavlov более 100 тысяч установок и более 10 тысяч установок контейнеров.
  • Увеличилось количество коммерческих решений за счет state-of-art технологий, реализованных в DeepPavlov, в разных отраслях от ритейла до промышленности.
  • Вышел первый релиз DeepPavlov Agent.
  • Количество активных участников сообщества возросло в 5 раз.
  • Наша команда студентов и аспирантов была отобрана для участия в Alexa Prize Socialbot Grand Challenge 3.
  • Библиотека стала призером конкурса от компании Google «Powered by TensorFlow Challenge».

Что же помогло достичь таких результатов и почему DeepPavlov — это лучший открытый источник для построения разговорного AI? Расскажем в нашей статье.


Читать дальше →

Строим Telegram-бот в Яндекс.Облаке

Время на прочтение7 мин
Количество просмотров53K
Создание телеграм-бота

Сегодня из подручных материалов мы соберём в Яндекс.Облаке Telegram-бот с использованием Yandex Cloud Functions (или Яндекс-функции — для краткости) и Yandex Object Storage (или Объектное хранилище — для ясности). Код будет на Node.js. Однако, имеется одно пикантное обстоятельство — некая организация под названием, скажем так, РоссКомЦензур (цензура запрещена статьёй 29 Конституции РФ), не позволяет интернет-провайдерам России передавать запросы в Telegram API по адресу: https://api.telegram.org/ (UPD: В РФ уже снята блокировка Telegram API). Ну мы и не будем — нет так нет. Ведь в нашем саквояже имеются т.н. вебхуки — с их помощью мы не делаем запросы на конкретный адрес, а всего лишь шлём свой запрос в качестве ответа на любой запрос к нам. То есть, как в Одессе — отвечаем вопросом на вопрос. Поэтому Telegram API в нашем коде фигурировать не будет.
Читать дальше →

Яндекс-функции рассылают почту

Время на прочтение5 мин
Количество просмотров11K
Яндекс-функции

Сегодня мы создадим т.н. Яндекс-функцию (официальное название Yandex Cloud Functions), которая вступив в сговор с сервисом почтовых рассылок SendGrid будет слать «мыло» мирно спящим пользователям (шутка — я знаю, что все мы против спама).

А ещё я противник (но без фанатизма) традиционных серверов, и сторонник т.н. serverless (бессерверных) решений, поскольку не люблю (да и толком не умею) администрировать сервера, а ещё больше — платить за то время, когда они не нагружены. Другое дело — функции. Их кто-то обслуживает без меня, а я плачу только за вызовы. В начале октября 2019 г. Яндекс представил свои Yandex Cloud Functions — кажется первый в РФ serverless. И что особо приятно — для навыков Алисы они вообще бесплатны, поэтому с тех пор находятся в поле моего периферийного зрения. Но давайте уже приступим.
Читать дальше →

Управление роботом мыслями с Emotiv Insight

Время на прочтение7 мин
Количество просмотров5.1K
image

Управление мыслями чем-либо, кроме собственных конечностей – область завораживающая. Всегда интересно представлять будущее, в котором мы можем взаимодействовать с интернетом не только при помощи пальцев, рта, глаз и ушей.

Если задуматься, то компьютер и телефон – ужасно неэффективные интерфейсы для получения нужной информации. Вы точно осознаете, что хотите узнать: например, текущий курс рубля к доллару. Нажимаете пальцами на определенные области экрана телефона с буквами, целясь каждый раз в нужные точки, после чего смотрите ответ.

Гораздо прекраснее было бы мысленно произнести «Привет, Игорь!», сформулировать мысленно вопрос и получить ответ ухом/глазом/другим способом. Или таким же быстрым способом отправить сообщение другу. В общем, подключить интернет к мозгам.

Раз это можно попробовать на практике уже сейчас, стоит поуправлять чем-то, посмотреть, насколько это удобно, и сделать выводы. Видео с результатами – в конце статьи.
Читать дальше →