Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

and7ey 5 июл 2020 в 16:31

Яндекс.Функции, Sublime Text и навыки для Алисы

4 мин

2.9K

Голосовые интерфейсы * Облачные сервисы * Хакатоны

27 июня Яндекс проводил онлайн-хакатон по разработке навыков для Алисы.

Решил и я принять в нем участие. Ранее навыки для Алисы я уже делал, но хостил их все на Google App Engine. Тут же я решил изучить что-то новое в рамках Хакатон. Яндекс активно продвигает свои Функции в Яндекс.Облаке для разработки навыков. Для навыков они бесплатны (правда, бесплатно не всё).

Вот и нашлась тема для изучения

denismosolov 4 июл 2020 в 13:13

Сущности для платформы Яндекс.Диалоги

4 мин

2.8K

Яндекс API * ХакатоныГолосовые интерфейсы * Open source * Natural Language Processing *

В прошлую субботу состоялся онлайн-хакатон по разработке навыков Алисы. Жаль, что никто не написал здесь об итогах, любопытно почитать истории победителей. Но раз желающих не нашлось, то поделюсь своей историей.

Я делаю голосовой интерфейс для управления брокерским счётом, уже писал об этом на Хабре — Алиса, купи акции Яндекс. В какой-то момент мне понадобилось извлекать из запроса цену в разных валютах. Уверен, я не первый, кто столкнулся такой задачей, поэтому попытался найти готовые интенты или именованные сущности на GitHub, но ничего не нашёл. На носу был хакатон, много разработчиков в одном месте, подумал я, если каждый поделится своими наработками, то сущностей наберётся на целую библиотеку. Так родилась идея для репозитория «библиотека сущностей».

Читать дальше →

denismosolov 2 июл 2020 в 13:33

Голосовой помощник для операций на Московской бирже: «Алиса, купи акции Яндекс»

5 мин

Информационная безопасность * Голосовые интерфейсы * Будущее здесьNatural Language Processing * DIY или Сделай сам

— Алиса, купи одну акцию Яндекс.
— Заявка на покупку Яндекс по рыночной цене, тикер: YNDX, количество акций: 1, для подтверждения скажите «подтверждаю», для отмены скажите «нет».
— Подтверждаю.
— Заявка исполнена.

Я делаю голосовой интерфейс для совершения операций с ценными бумагами на Московской бирже с открытым исходным кодом. Идею вынашивал с детства. Помню, впервые увидел голосовой помощник в каком-то фильме около двадцати лет назад, в то время у меня даже проводного телефона не было в доме. А сейчас у меня безлимитное подключение к сети Интернет, брокерский счёт, которым я могу управлять через смартфон. За двадцать лет технологии стали доступнее.

Читать дальше →

AlexxIT 26 июн 2020 в 05:50

Управление Яндекс.Станцией и другими колонками с Алисой из Home Assistant

4 мин

129K

Яндекс API * ГаджетыУмный домГолосовые интерфейсы * Интернет вещей

Мы привыкли называть умными устройства, которыми можем управлять, не вставая с дивана. Включить лампочку, вентилятор, кофеварку или стиральную машину.

Колонки с Яндекс Алисой хоть и называются умными, но вы не можете изменить громкость не находясь рядом с колонкой (орать через всю комнату не считается). Вы не можете перемотать песню из мобильного приложения Яндекса. Или остановить сказку, запущенную на колонке в детской, из своей кровати в спальне.

В январе 2020 кто-то обнаружил, что Яндекс.Станция поддерживает некий локальный протокол. На GitHub начали появляться проекты по управлению Яндекс.Станцией. Мне хватило пару часов, чтоб разобраться и выпустить первую версию компонента для Home Assistant. Это достаточно популярная система домашней автоматизации, написанная на языке Python.

На сегодняшний день компонент поддерживает управление всеми колонками с Яндекс Алисой и при желании может выглядеть так:

Читать дальше →

+19

just_ai 3 июн 2020 в 13:28

Голосовые навыки с нуля: как Алиса учила песни Цоя, не давала уснуть за рулем и принесла мне шесть наград от Яндекса

10 мин

8.8K

Блог компании Just AIЯндекс API * Разработка игр * Голосовые интерфейсы * DIY или Сделай сам

Необязательно посвящать годы изучению разговорных интерфейсов, чтобы у тебя получился крутой голосовой навык. Меня зовут Сергей Кул, и я считаю, что каждый навык – это маленький стартап: либо выстрелит, либо нет. Я создал первый голосовой скилл меньше года назад, ничего не зная о разработке ботов и голосовом UX. Теперь у меня пять Премий Алисы и специальный приз от Яндекса. Рассказываю, как так вышло и чему я научился, осваивая вместе с Алисой JavaScript, формулу Видмарка и песни «Кино».

Как создавать навыки без специальных навыков

1 июля 2019 года я начал активно искать какое-то новое направление для бизнеса в интернете. Работа в IT приелась, хотелось сменить деятельность. И вдруг наткнулся на статью, что для голосового ассистента Алисы сторонние разработчики могут делать свои навыки. Это было озарение! Понял, что хочу освоить такую разработку и закрепиться в этой нише. Что на тот момент я знал про голосовые интерфейсы или разработку ботов? НИЧЕГО! Совершенно! Но решил в течение одного месяца всё изучить и сделать первый навык.

+10

GranSteL 29 мая 2020 в 07:00

Что умеет Dialogflow?

11 мин

43K

Google Cloud Platform * Natural Language Processing * Голосовые интерфейсы * Мессенджеры *

Туториал

26 ноября в Москве прошла третья в своей истории Conversations – конференция по разговорному искусственному интеллекту для разработчиков и бизнеса, на которой был представлен новый доклад компании «Аэроклуб ИТ». В прошлый раз речь шла об одном из наших исследовательских проектов, теперь же рассказ был сосредоточен вокруг инструмента, который мы применяем для чат-ботов. Сперва я планировал просто написать статью по мотивам доклада, но получился целый tutorial, так что под катом вас ждёт довольно подробное описание некоторых возможностей Dialogflow, и даже попадутся неочевидные «хаки».

Читать дальше →

denismosolov 20 мая 2020 в 15:49

Разработка приватных навыков для Алисы. О чём не учат в Школе Алисы

4 мин

10K

Яндекс API * Умный домГолосовые интерфейсы * DIY или Сделай сам

Каждый раз, когда заканчиваю генеральную уборку, то появляется ощущение, как будто что-то забыл. На прошлой недели я записал на бумаге все задачи, которые надо сделать, чтобы убрать квартиру полностью — получилось три листа формата А4.

список работ на трёх листах А4

Так выглядит список задач по уборке однокомнатной квартиры.

Я активный пользователь Яндекс.Станции, поэтому решил запихнуть этот огромный список в Алису, чтобы во время генеральной уборки спрашивать у «девчонки в коробчонке», что делать дальше. Варианты названия для навыка крутились вокруг слов прораб и дворецкий. Давно мечтал о доме с дворецким, поэтому остановился на названии «Мой Дворецкий» и активационной фразе: «Алиса, спроси у моего дворецкого, что делать дальше».

Читать дальше →

-1

tyomitch 19 мая 2020 в 12:16

Рисуем речь: Software Automatic Mouth

9 мин

14K

Реверс-инжиниринг * История ITЗвукГолосовые интерфейсы * Natural Language Processing *

Прошлогоднюю статью «Рисуем звук» я завершил признанием: «А можно ли нарисовать звук с чистого листа, не обводя спектрограмму аудиозаписи? Скажу честно, у меня не получилось.» Но недавно я узнал про S.A.M. — выпущенный в 1982 г. компанией Don’t Ask Software, он стал первой коммерчески успешной программой для синтеза речи на ПК. В середине 2000-х немецкие демосценщики Tobias Korbmacher и Sebastian Macke взяли ассемблерный листинг S.A.M. для Commodore 64 и сконвертировали его в нечитаемый, но работоспособный код на Си; затем в 2014 г. британец Vidar Hokstad постарался привести код на Си в читаемый вид — вручную давая переменным осмысленные названия и заменяя goto на циклы и ветвления; и наконец, в 2017 г. ещё один немец Christian Schiffler переписал код с Си на JavaScript. Испробовать его в действии как «чёрный ящик» можно на discordier.github.io/sam.

По-моему, примитивный синтезатор речи на JavaScript — самый удобный подопытный образец для тех, кто хочет разобраться, как в целом работает синтез речи. Мой форк S.A.M. с существенно почищенным кодом и комментариями доступен на github.com/tyomitch/sam. К сожалению, у предыдущих авторов интерес к S.A.M. успел угаснуть, и им сейчас не до разбора пулл-реквестов в хобби-проект многолетней давности.

S.A.M. состоит из четырёх функциональных компонентов:

Reciter переводит текст на английском в фонемную запись: например, «A LITTLE TOO LOW» (пример из приложенной к S.A.M. демо-программы) превращается в «AH LIHTUL TUW5 LOW».
Parser превращает фонемную запись в фонетическую: из «AH LIHTUL TUW5 LOW» получается "AH, ,L,IH,DX,AX,LX, ,T,*,*,UX,WX, ,L,OW,WX". Для каждого выводимого фона Parser задаёт также длительность и тон.
Renderer строит по фонетической записи массив частот, амплитуд и прочих акустических характеристик;
Последний, безымянный компонент (функция ProcessFrames) превращает массив частот и амплитуд в PCM-поток для аудиовывода.

В этой статье я разберу все четыре компонента по очереди.

Читать дальше →

+15

MelkovaCROC 14 мая 2020 в 07:16

Помощник или инспектор: по ком звонит робот?

6 мин

Блог компании КРОКГолосовые интерфейсы * Развитие стартапаУдалённая работаУправление персоналом *

Привет, Хабр! Я тимлид группы продуктовых инноваций в КРОК. Технарём меня назвать можно с большой натяжкой, но зато я много общаюсь с разработчиками, техническими менеджерами, продажниками. И надеюсь, мы друг друга неплохо понимаем. Мы много работаем со стартапами, помогаем им с масштабированием продаж, в том числе через акселератор. Но сейчас не об этом. Неожиданно случилось так, что нам и многим нашим клиентам пришлось быстро менять свои планы и искать новые формы сотрудничества. Да-да, всё из-за вируса. Расскажу вам, какой инструмент мы придумали, чтобы сделать переход на удалёнку безболезненным и эффективным.

Весна 2020. Офлайн под запретом, люди сидят по домам, а работать всё равно нужно. А также – проверять, стимулировать и подбадривать сотрудников. Но даже если ваш босс Многорукий Шива, вряд ли ему хватит конечностей, чтобы держать их на пульсе каждого. Невозможно быть одновременно начальником, помощником, а иногда и психологом для большого коллектива. А почему бы и нет, – решили мы с Infobot и сделали робота-секретаря, робота-мотиватора, робота-трекера! В общем, называйте, как хотите, но это правда всё о нём.

Читать дальше →

+23

itNews 25 мар 2020 в 11:45

Будущее уже здесь: как работают голосовые роботы и что они умеют делать

7 мин

8.6K

Блог компании Neuro.netNatural Language Processing * Голосовые интерфейсы * Искусственный интеллектМашинное обучение *

Роботизация рутинных операций, когда для решения простых и одновременно трудоемких задач используются роботы, а не люди — весьма активный тренд. Автоматизируется многое, включая телефонные разговоры с клиентами. Компания Neuro.net занимается созданием технологий, которые дают возможность улучшить возможности роботов.

В этой статье разработчики рассказывают о технологиях и нюансах распознавания пола собеседника по голосу и работе над важными элементами диалога.

toshiba_ru 23 мар 2020 в 11:25

Распознавание речи: очень краткий вводный курс

11 мин

28K

Блог компании ToshibaНаучно-популярноеИскусственный интеллектГолосовые интерфейсы *

Рассказать неспециалисту максимально просто о работе компьютерного распознавания речи и преобразовании её в текст — задача почти непосильная. Ни один рассказ об этом не обходится без сложных формул и математических терминов. Мы попробуем максимально понятно и немного упрощённо объяснить, как ваш смартфон понимает речь, когда машины научились распознавать человеческий голос и в каких неожиданных областях используется эта технология.

Необходимое предуведомление: если вы разработчик или, тем более, математик, вы едва ли узнаете из поста что-то новое и даже посетуете на недостаточную научность материала. Наша цель — самым простым образом познакомить непосвящённых читателей с речевыми технологиями и рассказать, как и зачем Toshiba взялась за создание своего голосового ИИ.

GranSteL 22 мар 2020 в 17:20

Moscow travel hack глазами участников

10 мин

Проектирование API * Голосовые интерфейсы * Интерфейсы * Хакатоны

Команды Аэроклуб ИТ на Moscow travel hack

Привет! Вы наверняка слышали про первый в России хакатон по теме цифровизации индустрии туризма. Компанию Аэроклуб ИТ представляли на нём сразу две команды, и нам удалось не только отлично провести время, но и разработать прототипы проектов, попробовать силы в необычном для себя формате работы, и пообщаться с другими участниками. Под катом – история одной из наших команд!

ready_for_sky_team 20 мар 2020 в 08:00

Трудности воспитания голосового помощника. Взгляд лингвиста и разработчика

11 мин

2.9K

Блог компании Ready for SkyГолосовые интерфейсы * Производство и разработка электроники *

Работу с голосовым помощником часто сравнивают с воспитанием ребёнка. Он постоянно чему-то обучается, повторяя за «старшими». Постепенно овладевает языком и способностью выстраивать общение. Иногда он понимает всё слишком буквально или просто выдаёт что-то несуразное. Всё потому, что обработка языка — сложный и длительный процесс, требующий внимания не одного специалиста. Мы попросили наших коллег лингвиста-разработчика Ивана и ведущего инженера Бассела поделиться интересными случаями из опыта работы с Sky Voice Assistant. Мы задали двум специалистам одинаковые вопросы, чтобы узнать, почему одна математика не может победить при обработке языка, как голосовые помощники учатся шутить и зачем это нужно.

За что ты отвечаешь? Что входит в зону твоей ответственности?

Лингвист

Я отвечаю за всё, что связано с лингвистическим аспектом работы голосового ассистента. Это и анализ вопросов пользователя, и планирование логики ответа, и поиск или создание текста для него. Кроме того, я разрабатывал некоторые сервисы, сильно завязанные на тексте (в том числе погоды, напоминаний, новостей, тостов, словесных игр), и собирал контент для обучения. К нему относится, например, запись различных голосов для активации колонки.

Разработчик

Я отвечаю за мозг нашего чат-бота. Пишу его логику: то, как он принимает вопросы, как отвечает, откуда берет данные, какие сервисы внутри него будут работать. Это сервис для общения и база знаний, чтобы он мог ответить на какие-то вопросы. Он может к ней обратиться и сказать, какая погода, каков курс доллара, заказать тебе такси, установить будильник и т.д.

Читать дальше →

Leono 13 мар 2020 в 10:05

Глазные интерфейсы. Доклад в Яндексе

5 мин

Блог компании ЯндексКонференцииИнтерфейсы * Голосовые интерфейсы * Accessibility *

В феврале Яндекс провёл вторую конференцию «Я

Фронтенд». Мы сделали её непохожей на наши традиционные Я.Субботники — почти все спикеры были не из Яндекса, чтобы зрители могли узнать об опыте разных компаний и разработчиков. За день было съедено 10 кг мармелада, гости посмотрели, как работает робот-курьер Яндекс.Ровер, а вечером поболели за участников контеста Code in the Dark.

Как всегда, мы опубликуем конспекты нескольких докладов с конференции. Иван Бакаидов ibakaidov работает программистом в компании LINKa в Санкт-Петербурге. Он создатель программ альтернативной коммуникации и защитник прав людей без подписи. Ваня выступал на сессии комиссии по делам глухих в чрезвычайных ситуациях гуманитарного саммита ООН в Стамбуле. У нас на конференции он рассказал о «глазных интерфейсах» — поделился опытом разработки детских обучающих игр и приложений, управляемых с помощью устройства отслеживания взгляда и предназначенных для людей с ограниченными возможностями здоровья. Из конспекта и видео вы узнаете о подводных камнях в создании «глазных интерфейсов» и сможете ответить для себя на вопрос, будущее ли это.

Читать дальше →

+19

Vasyutka 20 фев 2020 в 10:48

Речевой бот в банке — худший UX ever

4 мин

33K

Usability * Голосовые интерфейсы * Искусственный интеллект

— Добрый вечер, меня зовут Наталья, чем я могу Вам помочь?
— Здравствуйте, у меня была заблокирована карта.
— Хорошо, назовите свое имя.
— Василий Моржаков.
(вбивает на клавиатуре)
— Ваше кодовое слово?
— Декобраз через Е.
— Простите, Вас не слышно.
— Де-ко-браз, через ЕЕ
— Что-то со связью, извините, можете повторить? (и кажется вешают трубку)

И вот я знаю немного про речевой ИИ, про ботов читал вчера Хабр, но все еще не могу понять, что же происходит.

Читать дальше →

+98

178

nvpushkarskiy2 19 фев 2020 в 12:40

Contact Center AI: третий участник в разговоре – это нормально

4 мин

4.3K

Блог компании VoximplantГолосовые интерфейсы * Искусственный интеллектМашинное обучение *

Наши клиенты и читатели блога знают про Dialogflow – платформу для создания умных ботов. Именно Dialogflow лежит в основе Contact Center AI (далее CCAI) от корпорации добра. Схематично стек технологии равен DialogFlow + WaveNet (text-to-speech) + voice recognition (speech-to-text), на выходе оно расширяет возможности обычного колл-центра, а именно позволяет оказывать более персонализированные услуги поддержки. Как именно? Рассказываем под катом и даем примеры успешной интеграции, добро пожаловать!

+19

Moryshka 18 фев 2020 в 07:04

Прорывы #DeepPavlov в 2019 году: обзор и итоги года

9 мин

5.7K

Блог компании Московский физико-технический институт (МФТИ)Машинное обучение * Искусственный интеллектГолосовые интерфейсы * Natural Language Processing *

Когда еще один плодотворный год подходит к концу, хочется оглянуться назад, подвести итоги и показать, что мы смогли сделать за это время. Библиотеке #DeepPavlov, на минуточку, уже два года, и мы рады, что наше сообщество с каждым днем растет.

За год работы над библиотекой мы достигли:

Скачивания библиотеки возросли на треть по сравнению с прошлым годом. Сейчас у DeepPavlov более 100 тысяч установок и более 10 тысяч установок контейнеров.
Увеличилось количество коммерческих решений за счет state-of-art технологий, реализованных в DeepPavlov, в разных отраслях от ритейла до промышленности.
Вышел первый релиз DeepPavlov Agent.
Количество активных участников сообщества возросло в 5 раз.
Наша команда студентов и аспирантов была отобрана для участия в Alexa Prize Socialbot Grand Challenge 3.
Библиотека стала призером конкурса от компании Google «Powered by TensorFlow Challenge».

Что же помогло достичь таких результатов и почему DeepPavlov — это лучший открытый источник для построения разговорного AI? Расскажем в нашей статье.

Читать дальше →

+21

mzaharov 6 фев 2020 в 21:07

Строим Telegram-бот в Яндекс.Облаке

7 мин

53K

Node.JS * Голосовые интерфейсы * Облачные вычисления * Облачные сервисы * Яндекс API *

Туториал

Технотекст 2020

Сегодня из подручных материалов мы соберём в Яндекс.Облаке Telegram-бот с использованием Yandex Cloud Functions (или Яндекс-функции — для краткости) и Yandex Object Storage (или Объектное хранилище — для ясности). Код будет на Node.js. Однако, имеется одно пикантное обстоятельство — некая организация под названием, скажем так, РоссКомЦензур (цензура запрещена статьёй 29 Конституции РФ), не позволяет интернет-провайдерам России передавать запросы в Telegram API по адресу: https://api.telegram.org/ (UPD: В РФ уже снята блокировка Telegram API). Ну мы и не будем — нет так нет. Ведь в нашем саквояже имеются т.н. вебхуки — с их помощью мы не делаем запросы на конкретный адрес, а всего лишь шлём свой запрос в качестве ответа на любой запрос к нам. То есть, как в Одессе — отвечаем вопросом на вопрос. Поэтому Telegram API в нашем коде фигурировать не будет.

Читать дальше →

+12

mzaharov 23 янв 2020 в 21:54

Яндекс-функции рассылают почту

5 мин

11K

Яндекс API * Облачные сервисы * Микросервисы * Голосовые интерфейсы * Node.JS *

Туториал

Сегодня мы создадим т.н. Яндекс-функцию (официальное название Yandex Cloud Functions), которая вступив в сговор с сервисом почтовых рассылок SendGrid будет слать «мыло» мирно спящим пользователям (шутка — я знаю, что все мы против спама).

А ещё я противник (но без фанатизма) традиционных серверов, и сторонник т.н. serverless (бессерверных) решений, поскольку не люблю (да и толком не умею) администрировать сервера, а ещё больше — платить за то время, когда они не нагружены. Другое дело — функции. Их кто-то обслуживает без меня, а я плачу только за вызовы. В начале октября 2019 г. Яндекс представил свои Yandex Cloud Functions — кажется первый в РФ serverless. И что особо приятно — для навыков Алисы они вообще бесплатны, поэтому с тех пор находятся в поле моего периферийного зрения. Но давайте уже приступим.

Читать дальше →

amoneron 14 янв 2020 в 17:03

Управление роботом мыслями с Emotiv Insight

7 мин

5.1K

ГаджетыГолосовые интерфейсы * Мозг

Управление мыслями чем-либо, кроме собственных конечностей – область завораживающая. Всегда интересно представлять будущее, в котором мы можем взаимодействовать с интернетом не только при помощи пальцев, рта, глаз и ушей.

Если задуматься, то компьютер и телефон – ужасно неэффективные интерфейсы для получения нужной информации. Вы точно осознаете, что хотите узнать: например, текущий курс рубля к доллару. Нажимаете пальцами на определенные области экрана телефона с буквами, целясь каждый раз в нужные точки, после чего смотрите ответ.

Гораздо прекраснее было бы мысленно произнести «Привет, Игорь!», сформулировать мысленно вопрос и получить ответ ухом/глазом/другим способом. Или таким же быстрым способом отправить сообщение другу. В общем, подключить интернет к мозгам.

Раз это можно попробовать на практике уже сейчас, стоит поуправлять чем-то, посмотреть, насколько это удобно, и сделать выводы. Видео с результатами – в конце статьи.

Читать дальше →

1 2 ...

11 12

14 15

Голосовые интерфейсы *

Яндекс.Функции, Sublime Text и навыки для Алисы

Сущности для платформы Яндекс.Диалоги

Голосовой помощник для операций на Московской бирже: «Алиса, купи акции Яндекс»

Управление Яндекс.Станцией и другими колонками с Алисой из Home Assistant

Голосовые навыки с нуля: как Алиса учила песни Цоя, не давала уснуть за рулем и принесла мне шесть наград от Яндекса

Как создавать навыки без специальных навыков

Что умеет Dialogflow?

Разработка приватных навыков для Алисы. О чём не учат в Школе Алисы

Рисуем речь: Software Automatic Mouth

Помощник или инспектор: по ком звонит робот?

Будущее уже здесь: как работают голосовые роботы и что они умеют делать

Распознавание речи: очень краткий вводный курс

Moscow travel hack глазами участников

Трудности воспитания голосового помощника. Взгляд лингвиста и разработчика

За что ты отвечаешь? Что входит в зону твоей ответственности?

Ближайшие события

Глазные интерфейсы. Доклад в Яндексе

Речевой бот в банке — худший UX ever

Contact Center AI: третий участник в разговоре – это нормально

Прорывы #DeepPavlov в 2019 году: обзор и итоги года

Строим Telegram-бот в Яндекс.Облаке

Яндекс-функции рассылают почту

Управление роботом мыслями с Emotiv Insight

Вклад авторов