Обновить
44.01

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Как мы интегрировали Яндекс.Музыку с Siri. Доклад Яндекса

Время на прочтение13 мин
Охват и читатели31K
Siri — мощный инструмент с публичным API для сторонних приложений. Например, музыкальных. В докладе я рассказал, как начать разработку обработки голосовых медиазапросов от Siri, используя Intents.framework. Поделился нашим опытом — с чем пришлось столкнуться, чего нет в документации и что не работает.

— Всем привет! Меня зовут Ваня, я из команды Яндекс.Музыки. Сегодня я вам расскажу, как Siri попала в Яндекс.Музыку. Музыку можно включать с помощью Siri.
Читать дальше →

ИИ-модель Microsoft превзошла результат человека в тесте на понимание естественного языка SuperGLUE

Время на прочтение3 мин
Охват и читатели6.6K

Алгоритм понимания естественного языка (Natural Language Understanding, NLU) Microsoft DeBERTa превзошел человеческие возможности в одном из самых сложных тестов для подобных алгоритмов SuperGLUE. На данный момент модель занимает первое место в рейтинге с показателем в 90,3, в то время как среднее значение человеческих возможностей составляет 89,8 баллов.

Читать далее

Четыре шага на пути к Скайнет

Время на прочтение13 мин
Охват и читатели9.3K

В канун Нового года принято подводить итоги и строить планы на будущее. Вот и мы решили не нарушать традицию и внести свой вклад в общий тренд.

Все мы сейчас часто слышим словосочетание «искусственный интеллект». Интернет, телевидение, реклама – отовсюду на нас обрушивается лавина информации. Бытовая техника с искусственным интеллектом, голосовые помощники в телефоне. Нам обещают, что искусственный интеллект решит все наши проблемы и сделает нашу жизнь лучше.

И мы решили оценить, насколько на самом деле разумны существующие системы ИИ, и можно ли их вообще назвать интеллектом.

Читать далее

Немного Web Speech API для современных веб-приложений

Время на прочтение3 мин
Охват и читатели4.7K

Ниже речь пойдет о технологиях работы с голосом в вебе, таких как распознавание и синтез речи. В статье не будет примеров кода или сложного технического описания, моя цель — показать вам возможности этих технологий и уровень их зрелости на примере простого приложения, которое было разработано в рамках изучения данной темы. Ознакомиться с кодом этого приложения вы можете на GitHub.

Читать дальше →

Навыки для виртуальных ассистентов на веб-технологиях

Время на прочтение8 мин
Охват и читатели7.2K

Недавно Cбер запустил Салют — семейство виртуальных ассистентов, которые работают на разных платформах. Мы в SberDevices, кроме самого ассистента, занимаемся разработкой инструментов, которые позволяют любому разработчику удобно создавать навыки, которые называются смартапы. Кроме общеизвестных диалоговых сценариев в формате чата — ChatApp, можно создавать смартапы в формате веб-приложения на любых известных веб-технологиях — Canvas App. О том, как создать простейший смартап такого типа на JS, и пойдет сегодня речь.

Погнали под кат!

Из рубрики «Не жизнь, а сказка». Теперь я парюсь с Алисой, а моя жена совсем не против

Время на прочтение10 мин
Охват и читатели22K
Краткая история о том как менеджер самого среднего звена умную сауну делал.
Понимаете, каждый год 31 декабря мы с друзьями ходим в баню. Это у нас такая традиция.
Год 2020 выдался необычный, поэтому может уже пора самоизолироваться в своей парилке и с друзьями всем дружно в зуме поддать парку? Правило в конференц-парилке: "В случае запотевания протрите сначала камеру, потом экран, потом стакан".



Если Вам интересно как сделать своими руками сауну с голосовым управлением прошу под кат.
— Алиса, выключи вентиляцию, включи свет и парилку на 95 градусов. А мы начинаем!

Как дарить подарки, если вы программист: Alexa, WebSocket и мобильное приложение

Время на прочтение5 мин
Охват и читатели3.5K
Каждый год я дарю брату рождественские подарки необычным способом. Это началось как шутка на Рождество, но в конце концов дошло до того, что я превращаю подарок в настоящее испытание. В прошлом году я заставил его писать и звонить подаркам, чтобы узнать, готовы ли они к открытию. За год до этого мой брат должен был провести некоторые исследования пород собак Американского клуба собаководов и воспользоваться их результатами, чтобы понять, в каком порядке открывать свои подарки. Но… в этом году всё по-другому.

Я решил воспользоваться своим опытом программиста, чтобы подарить брату неповторимое рождественское утро с эффектом погружения. Я сделал игру, в которую брат сможет играть на своём телефоне, чтобы понять, как открывать свои подарки. В чём прикол? Единственная возможность управления игрой — это команды голосовому помощнику Alexa через Echo.

Приятного чтения

Как Яндекс.Станция могла бы помочь людям с ментальными расстройствами

Время на прочтение4 мин
Охват и читатели4.2K

Привет, меня зовут Стасия, и я хочу поделиться своими идеями касательно практического применения Алисы для людей с ментальными расстройствами. Её функционал как голосового помощника можно использовать для быстрого чекапа психического состояния, выполнения упражнений и работы над негативными установками в мыслях. Как это реализовать и почему это важно — в этом посте.

Если вы чувствуете себя подавленно, страдаете от нехватки сил и сна, у вас изменились пищевые привычки и вы думаете о самоубийстве — пожалуйста, обратитесь к специалисту в вашем регионе. К сожалению, голосовые помощники не могут полностью заменить врачей и психологов.

Читать далее

Как разговорить Марусю: FAQ по созданию скиллов для голосового ассистента

Время на прочтение7 мин
Охват и читатели63K


Голосовые помощники как технология возникли благодаря развитию целого созвездия других технологий. И одним из таких голосовых помощников стала Маруся, относительно недавно созданная в Mail.ru Group. В её основе лежат последние разработки компании в области распознавания речи, машинного обучения и быстрой обработки крупных массивов данных. Маруся — это диалоговая платформа. Она способна взаимодействовать с человеком не только звуком, но и посредством изображений или текста. Есть много ситуаций, в которых она ответит не голосом, а изображением, текстом или ссылкой.

Маруся дебютировала еще в прошлом году, а первое устройство с этим ассистентом появилось в апреле 2020. Компания развивает его, делает умнее и наполняет библиотеку скиллов. В частности, ассистент стал лучше понимать пользователя, улучшился TTS. Кроме того, Маруся научилась управлять умным домом. В июне 2020 года Mail.ru Group открыла возможность создавать свои собственные скиллы. С тех пор протокол сильно прокачался и возможности ассистента намного выросли, а для разработчиков появился отладчик, где можно протестировать созданные скиллы.
Читать дальше →

Салют от Сбера в Яндекс.Облаке

Время на прочтение7 мин
Охват и читатели10K


В сентябре 2020 г. Сбербанк переименовал себя просто в Сбер (т.н. ребрендинг), и на радостях запустил собственную платформу голосовых ассистентов под названием Салют. Особенностью Салюта является наличие сразу трёх голосовых ассистентов на выбор пользователей: Сбер — мужчина, стиль обращения на «вы», Афина — женщина, обращается также на «вы», и Джой — девушка с дружеским «ты».

Сбер (банк, не его тёзка — голосовой ассистент) открыл эту платформу для сторонних разработчиков, пригласив их делать для неё приложения, т.н. смартапы — аналог навыков голосовой помощницы Алисы, и учредив для них конкурс с весьма щедрым призовым фондом. В этом туториале мы рассмотрим как сделать смартап на Node.js, разместить его код в Яндекс.Облаке (используя функции), и, наконец, создать проект в Салюте, пройти там модерацию, и опубликовать наш смартап, чтобы он стал общедоступным.
Читать дальше →

Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва

Время на прочтение7 мин
Охват и читатели20K
Всем привет! Меня зовут Олег Петров, я руковожу группой R&D в Центре речевых технологий. Мы давно работаем не только над распознаванием речи, но и умеем синтезировать голоса. Самый простой пример, для чего это нужно бизнесу: чтобы для каждого нового сценария, которому обучают голосовых роботов, не нужно было организовывать новую запись с человеком, который его когда-то озвучил. Ещё мы развиваем продукты на основе голосовой и лицевой биометрии и аналитики по голосовым данным. В общем, работаем над серьёзными и сложными задачами для разного бизнеса.



Но недавно к нам пришли коллеги из Сбера с предложением поучаствовать в развлекательной истории — «озвучить» героя Леонида Куравлёва в новом ролике. Для него лицо Куравлева было воссоздано по кадрам из фильма «Иван Васильевич меняет профессию» и наложено на лицо другого актера с помощью технологии Deepfake. Чтобы мы смогли не только увидеть, но и услышать в 2020 году Жоржа Милославского, мы решили помочь коллегам. Ведь с годами голос у всех нас меняется и даже если бы Леонид Вячеславович озвучил героя, эффект был бы не тот.

Под катом я расскажу, почему эта, уже во многом привычная задача голосового синтеза, оказалась чуть сложнее, чем мы ожидали, и поясню, почему такие голоса не смогут обмануть качественные системы биометрической авторизации.

Microsoft 365 Virtual Training Days: Построение интеграции и рабочих процессов Microsoft Teams

Время на прочтение1 мин
Охват и читатели1.2K
Платформа разработки Microsoft Teams упрощает интеграцию приложений и сервисов, повышает эффективность, помогает быстрее принимать решения и упрощает взаимодействие. На мероприятии все желающие узнают как:

  • создавать приложения для Teams, а также решения, которые могут повысить эффективность вашей организации при работе как в офисе, так и удаленно.
  • преобразовывать повседневные бизнес-процессы с помощью средств Microsoft 365 для интеграции с Power Platform, SharePoint и Microsoft Office;
  • расширить возможности Microsoft 365 и создавать уникальные интеллектуальные приложения с помощью инструментов Microsoft Graph

Когда: 3-4 декабря
Язык: английский с субтитрами на русском

Регистрация

Под катом краткое расписание.

Читать дальше →

Пишем голосового ассистента на Python

Время на прочтение16 мин
Охват и читатели217K

Введение


Технологии в области машинного обучения за последний год развиваются с потрясающей скоростью. Всё больше компаний делятся своими наработками, тем самым открывая новые возможности для создания умных цифровых помощников.

В рамках данной статьи я хочу поделиться своим опытом реализации голосового ассистента и предложить вам несколько идей для того, чтобы сделать его ещё умнее и полезнее.

image
Читать дальше →

Ближайшие события

Open Source синтез речи SOVA

Время на прочтение9 мин
Охват и читатели26K

Всем привет! Ранее мы выкладывали статью про наше распознавание речи, сегодня мы хотим рассказать вам о нашем опыте по созданию синтеза речи на русском языке, а также поделиться ссылками на репозитории и датасеты для свободного использования в любых целях.



Если вам интересна история о том, как мы разработали собственный сервис синтеза речи и каких результатов нам удалось достигнуть, то добро пожаловать под кат.

Конференция Conversations: инструменты и кейсы разговорного AI от DeepPavlov, SberDevices, CoolGames и не только

Время на прочтение2 мин
Охват и читатели1.4K

4 декабря – впервые полностью в онлайн-формате! – пройдет Conversations, главная конференция по технологиям разговорного искусственного интеллекта для разработчиков и бизнеса. В потоках Business и Technology выступят эксперты SberDevices, CoolGames, Альфа-Банка, Just AI, Работа.Ру, Viber, Qiwi, DeepPavlov, ДоДо Пицца и другие лидеры индустрии.

Как (и зачем!) разрабатывать голосовые сервисы для умных экранов? Какие преимущества для conversational UI дает языковая модель GPT-3? Как использовать аналитику OneDash в чатботах? Как голосовой ассистент может обогатить геймерский опыт – например, в Dota 2? В общем, будет много интересного!

О чем расскажут на Conversations?

Вентилятор для zwift с алисой

Время на прочтение4 мин
Охват и читатели4.8K
Всем привет. Хочу заранее извинится за корявось решений, кода и изготовления. Во-первых, у меня очень кривые руки, во-вторых, стараюсь сделать с минимальными усилиями и из того, что есть под рукой, — главное чтоб работало стабильно и выполняло нужные функции.

Цель: тренируюсь регулярно на велосипеде, а зимой тренировки проходят дома на велостанке (кстати, он тоже у меня самодельный и это другая история) для обдува практически все, кто так тренируется, используют вентилятор.
Читать дальше →

Как автоматизировать аудит всех разговоров компании

Время на прочтение3 мин
Охват и читатели3.9K
image

Разговоры с клиентами записывают практически все компании. Но для прослушивания всех разговоров необходимо столько же человек, сколько их “наговорило”, поэтому обращаются к этим записям, как правило крайне редко.

Происходит это всего лишь в двух случаях. Во-первых, когда необходимо найти “кто прав?”, то есть в случае возникновения спорных вопросов с клиентами или поставщиками. Во-вторых, когда в контактном центре налажен процесс выборочного аудита разговоров для оценки. В последнем случае существуют статистические формулы, которые дают нам следующие выкладки. Чтобы с уверенностью 90±5% сказать, что информация об аудите достоверна, необходимо прослушать 214 разговоров из каждой тысячи. Иными словами на каждые 5 операторов необходимо одного аудитора с аналогичным графиком работы. А если учитывать, что некоторые колл-центры работают круглосуточно, то требуемое количество аудиторов возрастает.

Таким образом получается, что компании прослушивают всего 1-3% разговоров. Однако в диалогах с клиентами можно найти довольно много интересного, если провести голосовую аналитику. Поиск можно осуществлять по следующим критериям:

Open Source распознавание речи SOVA

Время на прочтение16 мин
Охват и читатели34K
Мы в Наносемантике занимаемся виртуальными ассистентами (чат-ботами и голосовыми помощниками) для компаний с большими колл-центрами. Раньше мы использовали распознавание и синтез речи других компаний, а 1.5 года назад решили, что хотим быть самодостаточным вендором.



Если интересно, зачем нам это, что у нас получилось, а также для чего нам выкладывать ASR & TTS в Open Source – добро пожаловать под кат.

Голосовой бот + телефония на полном OpenSource. Часть 2 — учим бота слушать и говорить

Время на прочтение5 мин
Охват и читатели13K

В первой части статьи я описал как создать простого чат бота, в этой статье мы научим нашего бота говорить и слушать русскую речь и переводить ее в текст.
Читать дальше →

Исследовательский практикум. Голосовой UX – как сделать голосового виртуального ассистента лучшей версией человека

Время на прочтение9 мин
Охват и читатели1.9K

Почему это важно?


Знаете, какой самый надежный способ сделать что-то идеально правильно? Надо просто подсмотреть это в живой природе, т.е. постараться увидеть – как данную проблему решила эволюция, ну или, если хотите, реализовал Бог, т.к. характер природы мироустройства каждый выбирает для себя сам. Если бы кнопки были самым оптимальным вариантом реализации интерфейса общения, то они, наверное, располагались бы у нас на лбу, ну или на каком-нибудь другом видном и легко доступном месте.

Любой UI, все эти бесконечные скроллы, кнопки, области и т.д. – не очевидны, и это почти всегда пользовательская боль. В отличие от них голос – это, наоборот, очень естественно. Проблема состоит в том, что при всей кажущейся простоте, разработать качественный голосовой интерфейс довольно сложно. Существует мнение, что голосовой интерфейс – это идеальная реализация интерфейса, который вроде бы являются частью системы, но, в то же самое время, не существует в ней в виде физического отображения.

image

Проектирование голосового интерфейса по сути своей является проектированием пользовательских диалогов. И критериев эффективности здесь довольно много – степень удовлетворенности клиента, глубина разговора и т.д. Сложность разработки диалогов, кроме всего прочего состоит в том, что необходимо сделать их похожими на общение людей друг с другом, а не на комиксовые варианты общения человека с роботом.
Читать дальше →