Все потоки
Поиск
Написать публикацию
Обновить
4.93

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Моё знакомство с виртуальными ассистентами Салют, а также с платформой SmartMarket и SmartApp

Время на прочтение9 мин
Количество просмотров9.8K

Знакомство с виртуальными ассистентами Салют, а также с платформой SmartMarket и SmartApp.

Путь от chat app до canvas app или как создать canvas app на платформе SmartMarket.

Читать далее

Новые возможности для Python-разработчиков: SmartApp Framework в open source

Время на прочтение4 мин
Количество просмотров3.9K
Платформа SmartMarket позволяет разработчику с любым уровнем подготовки создавать мультимодальные приложения для виртуальных ассистентов Салют, даже без программирования. Конечно, если хочется сделать что-то красивое и сложное, без кода не обойтись. Чтобы облегчить жизнь разработчикам, мы делимся с ними нашими наработками в open source. На митапе разработчиков SmartMarket, прошедшем в декабре, мы рассказали о новом фреймворке.

Ниже вы найдете текстовую версию доклада и его видеозапись.


Друзья, привет! Меня зовут Кристина, я backend-разработчик SberDevices и тимлид сервиса управления диалогом, который используется для работы виртуальных ассистентов Салют. Расскажу вам сегодня о новом инструменте SmartMarket – SmartApp Framework, который мы выложили в open source.
Читать дальше →

Как мы интегрировали Яндекс.Музыку с Siri. Доклад Яндекса

Время на прочтение13 мин
Количество просмотров27K
Siri — мощный инструмент с публичным API для сторонних приложений. Например, музыкальных. В докладе я рассказал, как начать разработку обработки голосовых медиазапросов от Siri, используя Intents.framework. Поделился нашим опытом — с чем пришлось столкнуться, чего нет в документации и что не работает.

— Всем привет! Меня зовут Ваня, я из команды Яндекс.Музыки. Сегодня я вам расскажу, как Siri попала в Яндекс.Музыку. Музыку можно включать с помощью Siri.
Читать дальше →

ИИ-модель Microsoft превзошла результат человека в тесте на понимание естественного языка SuperGLUE

Время на прочтение3 мин
Количество просмотров6.2K

Алгоритм понимания естественного языка (Natural Language Understanding, NLU) Microsoft DeBERTa превзошел человеческие возможности в одном из самых сложных тестов для подобных алгоритмов SuperGLUE. На данный момент модель занимает первое место в рейтинге с показателем в 90,3, в то время как среднее значение человеческих возможностей составляет 89,8 баллов.

Читать далее

Четыре шага на пути к Скайнет

Время на прочтение13 мин
Количество просмотров8.6K

В канун Нового года принято подводить итоги и строить планы на будущее. Вот и мы решили не нарушать традицию и внести свой вклад в общий тренд.

Все мы сейчас часто слышим словосочетание «искусственный интеллект». Интернет, телевидение, реклама – отовсюду на нас обрушивается лавина информации. Бытовая техника с искусственным интеллектом, голосовые помощники в телефоне. Нам обещают, что искусственный интеллект решит все наши проблемы и сделает нашу жизнь лучше.

И мы решили оценить, насколько на самом деле разумны существующие системы ИИ, и можно ли их вообще назвать интеллектом.

Читать далее

Немного Web Speech API для современных веб-приложений

Время на прочтение3 мин
Количество просмотров4.3K

Ниже речь пойдет о технологиях работы с голосом в вебе, таких как распознавание и синтез речи. В статье не будет примеров кода или сложного технического описания, моя цель — показать вам возможности этих технологий и уровень их зрелости на примере простого приложения, которое было разработано в рамках изучения данной темы. Ознакомиться с кодом этого приложения вы можете на GitHub.

Читать дальше →

Навыки для виртуальных ассистентов на веб-технологиях

Время на прочтение8 мин
Количество просмотров6.8K

Недавно Cбер запустил Салют — семейство виртуальных ассистентов, которые работают на разных платформах. Мы в SberDevices, кроме самого ассистента, занимаемся разработкой инструментов, которые позволяют любому разработчику удобно создавать навыки, которые называются смартапы. Кроме общеизвестных диалоговых сценариев в формате чата — ChatApp, можно создавать смартапы в формате веб-приложения на любых известных веб-технологиях — Canvas App. О том, как создать простейший смартап такого типа на JS, и пойдет сегодня речь.

Погнали под кат!

Из рубрики «Не жизнь, а сказка». Теперь я парюсь с Алисой, а моя жена совсем не против

Время на прочтение10 мин
Количество просмотров21K
Краткая история о том как менеджер самого среднего звена умную сауну делал.
Понимаете, каждый год 31 декабря мы с друзьями ходим в баню. Это у нас такая традиция.
Год 2020 выдался необычный, поэтому может уже пора самоизолироваться в своей парилке и с друзьями всем дружно в зуме поддать парку? Правило в конференц-парилке: "В случае запотевания протрите сначала камеру, потом экран, потом стакан".



Если Вам интересно как сделать своими руками сауну с голосовым управлением прошу под кат.
— Алиса, выключи вентиляцию, включи свет и парилку на 95 градусов. А мы начинаем!

Как дарить подарки, если вы программист: Alexa, WebSocket и мобильное приложение

Время на прочтение5 мин
Количество просмотров3.4K
Каждый год я дарю брату рождественские подарки необычным способом. Это началось как шутка на Рождество, но в конце концов дошло до того, что я превращаю подарок в настоящее испытание. В прошлом году я заставил его писать и звонить подаркам, чтобы узнать, готовы ли они к открытию. За год до этого мой брат должен был провести некоторые исследования пород собак Американского клуба собаководов и воспользоваться их результатами, чтобы понять, в каком порядке открывать свои подарки. Но… в этом году всё по-другому.

Я решил воспользоваться своим опытом программиста, чтобы подарить брату неповторимое рождественское утро с эффектом погружения. Я сделал игру, в которую брат сможет играть на своём телефоне, чтобы понять, как открывать свои подарки. В чём прикол? Единственная возможность управления игрой — это команды голосовому помощнику Alexa через Echo.

Приятного чтения

Как Яндекс.Станция могла бы помочь людям с ментальными расстройствами

Время на прочтение4 мин
Количество просмотров3.8K

Привет, меня зовут Стасия, и я хочу поделиться своими идеями касательно практического применения Алисы для людей с ментальными расстройствами. Её функционал как голосового помощника можно использовать для быстрого чекапа психического состояния, выполнения упражнений и работы над негативными установками в мыслях. Как это реализовать и почему это важно — в этом посте.

Если вы чувствуете себя подавленно, страдаете от нехватки сил и сна, у вас изменились пищевые привычки и вы думаете о самоубийстве — пожалуйста, обратитесь к специалисту в вашем регионе. К сожалению, голосовые помощники не могут полностью заменить врачей и психологов.

Читать далее

Как разговорить Марусю: FAQ по созданию скиллов для голосового ассистента

Время на прочтение7 мин
Количество просмотров57K


Голосовые помощники как технология возникли благодаря развитию целого созвездия других технологий. И одним из таких голосовых помощников стала Маруся, относительно недавно созданная в Mail.ru Group. В её основе лежат последние разработки компании в области распознавания речи, машинного обучения и быстрой обработки крупных массивов данных. Маруся — это диалоговая платформа. Она способна взаимодействовать с человеком не только звуком, но и посредством изображений или текста. Есть много ситуаций, в которых она ответит не голосом, а изображением, текстом или ссылкой.

Маруся дебютировала еще в прошлом году, а первое устройство с этим ассистентом появилось в апреле 2020. Компания развивает его, делает умнее и наполняет библиотеку скиллов. В частности, ассистент стал лучше понимать пользователя, улучшился TTS. Кроме того, Маруся научилась управлять умным домом. В июне 2020 года Mail.ru Group открыла возможность создавать свои собственные скиллы. С тех пор протокол сильно прокачался и возможности ассистента намного выросли, а для разработчиков появился отладчик, где можно протестировать созданные скиллы.
Читать дальше →

Салют от Сбера в Яндекс.Облаке

Время на прочтение7 мин
Количество просмотров9.3K


В сентябре 2020 г. Сбербанк переименовал себя просто в Сбер (т.н. ребрендинг), и на радостях запустил собственную платформу голосовых ассистентов под названием Салют. Особенностью Салюта является наличие сразу трёх голосовых ассистентов на выбор пользователей: Сбер — мужчина, стиль обращения на «вы», Афина — женщина, обращается также на «вы», и Джой — девушка с дружеским «ты».

Сбер (банк, не его тёзка — голосовой ассистент) открыл эту платформу для сторонних разработчиков, пригласив их делать для неё приложения, т.н. смартапы — аналог навыков голосовой помощницы Алисы, и учредив для них конкурс с весьма щедрым призовым фондом. В этом туториале мы рассмотрим как сделать смартап на Node.js, разместить его код в Яндекс.Облаке (используя функции), и, наконец, создать проект в Салюте, пройти там модерацию, и опубликовать наш смартап, чтобы он стал общедоступным.
Читать дальше →

Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва

Время на прочтение7 мин
Количество просмотров20K
Всем привет! Меня зовут Олег Петров, я руковожу группой R&D в Центре речевых технологий. Мы давно работаем не только над распознаванием речи, но и умеем синтезировать голоса. Самый простой пример, для чего это нужно бизнесу: чтобы для каждого нового сценария, которому обучают голосовых роботов, не нужно было организовывать новую запись с человеком, который его когда-то озвучил. Ещё мы развиваем продукты на основе голосовой и лицевой биометрии и аналитики по голосовым данным. В общем, работаем над серьёзными и сложными задачами для разного бизнеса.



Но недавно к нам пришли коллеги из Сбера с предложением поучаствовать в развлекательной истории — «озвучить» героя Леонида Куравлёва в новом ролике. Для него лицо Куравлева было воссоздано по кадрам из фильма «Иван Васильевич меняет профессию» и наложено на лицо другого актера с помощью технологии Deepfake. Чтобы мы смогли не только увидеть, но и услышать в 2020 году Жоржа Милославского, мы решили помочь коллегам. Ведь с годами голос у всех нас меняется и даже если бы Леонид Вячеславович озвучил героя, эффект был бы не тот.

Под катом я расскажу, почему эта, уже во многом привычная задача голосового синтеза, оказалась чуть сложнее, чем мы ожидали, и поясню, почему такие голоса не смогут обмануть качественные системы биометрической авторизации.

Ближайшие события

Microsoft 365 Virtual Training Days: Построение интеграции и рабочих процессов Microsoft Teams

Время на прочтение1 мин
Количество просмотров1.1K
Платформа разработки Microsoft Teams упрощает интеграцию приложений и сервисов, повышает эффективность, помогает быстрее принимать решения и упрощает взаимодействие. На мероприятии все желающие узнают как:

  • создавать приложения для Teams, а также решения, которые могут повысить эффективность вашей организации при работе как в офисе, так и удаленно.
  • преобразовывать повседневные бизнес-процессы с помощью средств Microsoft 365 для интеграции с Power Platform, SharePoint и Microsoft Office;
  • расширить возможности Microsoft 365 и создавать уникальные интеллектуальные приложения с помощью инструментов Microsoft Graph

Когда: 3-4 декабря
Язык: английский с субтитрами на русском

Регистрация

Под катом краткое расписание.

Читать дальше →

Пишем голосового ассистента на Python

Время на прочтение16 мин
Количество просмотров192K

Введение


Технологии в области машинного обучения за последний год развиваются с потрясающей скоростью. Всё больше компаний делятся своими наработками, тем самым открывая новые возможности для создания умных цифровых помощников.

В рамках данной статьи я хочу поделиться своим опытом реализации голосового ассистента и предложить вам несколько идей для того, чтобы сделать его ещё умнее и полезнее.

image
Читать дальше →

Open Source синтез речи SOVA

Время на прочтение9 мин
Количество просмотров24K

Всем привет! Ранее мы выкладывали статью про наше распознавание речи, сегодня мы хотим рассказать вам о нашем опыте по созданию синтеза речи на русском языке, а также поделиться ссылками на репозитории и датасеты для свободного использования в любых целях.



Если вам интересна история о том, как мы разработали собственный сервис синтеза речи и каких результатов нам удалось достигнуть, то добро пожаловать под кат.

Конференция Conversations: инструменты и кейсы разговорного AI от DeepPavlov, SberDevices, CoolGames и не только

Время на прочтение2 мин
Количество просмотров1.3K

4 декабря – впервые полностью в онлайн-формате! – пройдет Conversations, главная конференция по технологиям разговорного искусственного интеллекта для разработчиков и бизнеса. В потоках Business и Technology выступят эксперты SberDevices, CoolGames, Альфа-Банка, Just AI, Работа.Ру, Viber, Qiwi, DeepPavlov, ДоДо Пицца и другие лидеры индустрии.

Как (и зачем!) разрабатывать голосовые сервисы для умных экранов? Какие преимущества для conversational UI дает языковая модель GPT-3? Как использовать аналитику OneDash в чатботах? Как голосовой ассистент может обогатить геймерский опыт – например, в Dota 2? В общем, будет много интересного!

О чем расскажут на Conversations?

Вентилятор для zwift с алисой

Время на прочтение4 мин
Количество просмотров4.3K
Всем привет. Хочу заранее извинится за корявось решений, кода и изготовления. Во-первых, у меня очень кривые руки, во-вторых, стараюсь сделать с минимальными усилиями и из того, что есть под рукой, — главное чтоб работало стабильно и выполняло нужные функции.

Цель: тренируюсь регулярно на велосипеде, а зимой тренировки проходят дома на велостанке (кстати, он тоже у меня самодельный и это другая история) для обдува практически все, кто так тренируется, используют вентилятор.
Читать дальше →

Как автоматизировать аудит всех разговоров компании

Время на прочтение3 мин
Количество просмотров3.7K
image

Разговоры с клиентами записывают практически все компании. Но для прослушивания всех разговоров необходимо столько же человек, сколько их “наговорило”, поэтому обращаются к этим записям, как правило крайне редко.

Происходит это всего лишь в двух случаях. Во-первых, когда необходимо найти “кто прав?”, то есть в случае возникновения спорных вопросов с клиентами или поставщиками. Во-вторых, когда в контактном центре налажен процесс выборочного аудита разговоров для оценки. В последнем случае существуют статистические формулы, которые дают нам следующие выкладки. Чтобы с уверенностью 90±5% сказать, что информация об аудите достоверна, необходимо прослушать 214 разговоров из каждой тысячи. Иными словами на каждые 5 операторов необходимо одного аудитора с аналогичным графиком работы. А если учитывать, что некоторые колл-центры работают круглосуточно, то требуемое количество аудиторов возрастает.

Таким образом получается, что компании прослушивают всего 1-3% разговоров. Однако в диалогах с клиентами можно найти довольно много интересного, если провести голосовую аналитику. Поиск можно осуществлять по следующим критериям:

Open Source распознавание речи SOVA

Время на прочтение16 мин
Количество просмотров32K
Мы в Наносемантике занимаемся виртуальными ассистентами (чат-ботами и голосовыми помощниками) для компаний с большими колл-центрами. Раньше мы использовали распознавание и синтез речи других компаний, а 1.5 года назад решили, что хотим быть самодостаточным вендором.



Если интересно, зачем нам это, что у нас получилось, а также для чего нам выкладывать ASR & TTS в Open Source – добро пожаловать под кат.