Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

olezhkapetrov 2 дек 2020 в 09:03

Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва

7 мин

20K

Блог компании СберNatural Language Processing * Голосовые интерфейсы * Машинное обучение *

Всем привет! Меня зовут Олег Петров, я руковожу группой R&D в Центре речевых технологий. Мы давно работаем не только над распознаванием речи, но и умеем синтезировать голоса. Самый простой пример, для чего это нужно бизнесу: чтобы для каждого нового сценария, которому обучают голосовых роботов, не нужно было организовывать новую запись с человеком, который его когда-то озвучил. Ещё мы развиваем продукты на основе голосовой и лицевой биометрии и аналитики по голосовым данным. В общем, работаем над серьёзными и сложными задачами для разного бизнеса.

Но недавно к нам пришли коллеги из Сбера с предложением поучаствовать в развлекательной истории — «озвучить» героя Леонида Куравлёва в новом ролике. Для него лицо Куравлева было воссоздано по кадрам из фильма «Иван Васильевич меняет профессию» и наложено на лицо другого актера с помощью технологии Deepfake. Чтобы мы смогли не только увидеть, но и услышать в 2020 году Жоржа Милославского, мы решили помочь коллегам. Ведь с годами голос у всех нас меняется и даже если бы Леонид Вячеславович озвучил героя, эффект был бы не тот.

Под катом я расскажу, почему эта, уже во многом привычная задача голосового синтеза, оказалась чуть сложнее, чем мы ожидали, и поясню, почему такие голоса не смогут обмануть качественные системы биометрической авторизации.

+37

sahsAGU 30 ноя 2020 в 11:37

Microsoft 365 Virtual Training Days: Построение интеграции и рабочих процессов Microsoft Teams

1 мин

1.1K

Блог компании MicrosoftГолосовые интерфейсы * КонференцииУправление разработкой * Учебный процесс в IT

Платформа разработки Microsoft Teams упрощает интеграцию приложений и сервисов, повышает эффективность, помогает быстрее принимать решения и упрощает взаимодействие. На мероприятии все желающие узнают как:

создавать приложения для Teams, а также решения, которые могут повысить эффективность вашей организации при работе как в офисе, так и удаленно.
преобразовывать повседневные бизнес-процессы с помощью средств Microsoft 365 для интеграции с Power Platform, SharePoint и Microsoft Office;
расширить возможности Microsoft 365 и создавать уникальные интеллектуальные приложения с помощью инструментов Microsoft Graph

Когда: 3-4 декабря
Язык: английский с субтитрами на русском

Регистрация

Под катом краткое расписание.

Читать дальше →

EnjiRouz 24 ноя 2020 в 08:47

Пишем голосового ассистента на Python

16 мин

194K

Python * Голосовые интерфейсы * Машинное обучение * Windows *

Туториал

Из песочницы

Введение

Технологии в области машинного обучения за последний год развиваются с потрясающей скоростью. Всё больше компаний делятся своими наработками, тем самым открывая новые возможности для создания умных цифровых помощников.

В рамках данной статьи я хочу поделиться своим опытом реализации голосового ассистента и предложить вам несколько идей для того, чтобы сделать его ещё умнее и полезнее.

Читать дальше →

Dekakhrone 17 ноя 2020 в 20:14

Open Source синтез речи SOVA

9 мин

24K

Блог компании НаносемантикаПрограммирование * Машинное обучение * Искусственный интеллектГолосовые интерфейсы *

Всем привет! Ранее мы выкладывали статью про наше распознавание речи, сегодня мы хотим рассказать вам о нашем опыте по созданию синтеза речи на русском языке, а также поделиться ссылками на репозитории и датасеты для свободного использования в любых целях.

Если вам интересна история о том, как мы разработали собственный сервис синтеза речи и каких результатов нам удалось достигнуть, то добро пожаловать под кат.

+29

just_ai 17 ноя 2020 в 14:06

Конференция Conversations: инструменты и кейсы разговорного AI от DeepPavlov, SberDevices, CoolGames и не только

2 мин

1.3K

Блог компании Just AIГолосовые интерфейсы * Искусственный интеллектКонференцииРазработка игр *

4 декабря – впервые полностью в онлайн-формате! – пройдет Conversations, главная конференция по технологиям разговорного искусственного интеллекта для разработчиков и бизнеса. В потоках Business и Technology выступят эксперты SberDevices, CoolGames, Альфа-Банка, Just AI, Работа.Ру, Viber, Qiwi, DeepPavlov, ДоДо Пицца и другие лидеры индустрии.

Как (и зачем!) разрабатывать голосовые сервисы для умных экранов? Какие преимущества для conversational UI дает языковая модель GPT-3? Как использовать аналитику OneDash в чатботах? Как голосовой ассистент может обогатить геймерский опыт – например, в Dota 2? В общем, будет много интересного!

О чем расскажут на Conversations?

AlexP_ekt 9 ноя 2020 в 10:50

Вентилятор для zwift с алисой

4 мин

4.3K

Голосовые интерфейсы * DIY или Сделай самПроектирование API *

Из песочницы

Всем привет. Хочу заранее извинится за корявось решений, кода и изготовления. Во-первых, у меня очень кривые руки, во-вторых, стараюсь сделать с минимальными усилиями и из того, что есть под рукой, — главное чтоб работало стабильно и выполняло нужные функции.

Цель: тренируюсь регулярно на велосипеде, а зимой тренировки проходят дома на велостанке (кстати, он тоже у меня самодельный и это другая история) для обдува практически все, кто так тренируется, используют вентилятор.

Читать дальше →

OlegAgapov 3 ноя 2020 в 17:42

Как автоматизировать аудит всех разговоров компании

3 мин

3.7K

Голосовые интерфейсы * ЗвукИскусственный интеллект

Разговоры с клиентами записывают практически все компании. Но для прослушивания всех разговоров необходимо столько же человек, сколько их “наговорило”, поэтому обращаются к этим записям, как правило крайне редко.

Происходит это всего лишь в двух случаях. Во-первых, когда необходимо найти “кто прав?”, то есть в случае возникновения спорных вопросов с клиентами или поставщиками. Во-вторых, когда в контактном центре налажен процесс выборочного аудита разговоров для оценки. В последнем случае существуют статистические формулы, которые дают нам следующие выкладки. Чтобы с уверенностью 90±5% сказать, что информация об аудите достоверна, необходимо прослушать 214 разговоров из каждой тысячи. Иными словами на каждые 5 операторов необходимо одного аудитора с аналогичным графиком работы. А если учитывать, что некоторые колл-центры работают круглосуточно, то требуемое количество аудиторов возрастает.

Таким образом получается, что компании прослушивают всего 1-3% разговоров. Однако в диалогах с клиентами можно найти довольно много интересного, если провести голосовую аналитику. Поиск можно осуществлять по следующим критериям:

sxdxfan 15 окт 2020 в 08:28

Open Source распознавание речи SOVA

16 мин

32K

Блог компании НаносемантикаГолосовые интерфейсы * Искусственный интеллектМашинное обучение * Программирование *

Мы в Наносемантике занимаемся виртуальными ассистентами (чат-ботами и голосовыми помощниками) для компаний с большими колл-центрами. Раньше мы использовали распознавание и синтез речи других компаний, а 1.5 года назад решили, что хотим быть самодостаточным вендором.

Если интересно, зачем нам это, что у нас получилось, а также для чего нам выкладывать ASR & TTS в Open Source – добро пожаловать под кат.

+21

bogdan1993 12 окт 2020 в 00:51

Голосовой бот + телефония на полном OpenSource. Часть 2 — учим бота слушать и говорить

5 мин

12K

Искусственный интеллектГолосовые интерфейсы * Python *

В первой части статьи я описал как создать простого чат бота, в этой статье мы научим нашего бота говорить и слушать русскую речь и переводить ее в текст.

Читать дальше →

bomonin 7 окт 2020 в 13:43

Исследовательский практикум. Голосовой UX – как сделать голосового виртуального ассистента лучшей версией человека

9 мин

1.8K

Голосовые интерфейсы * Искусственный интеллект

Почему это важно?

Знаете, какой самый надежный способ сделать что-то идеально правильно? Надо просто подсмотреть это в живой природе, т.е. постараться увидеть – как данную проблему решила эволюция, ну или, если хотите, реализовал Бог, т.к. характер природы мироустройства каждый выбирает для себя сам. Если бы кнопки были самым оптимальным вариантом реализации интерфейса общения, то они, наверное, располагались бы у нас на лбу, ну или на каком-нибудь другом видном и легко доступном месте.

Любой UI, все эти бесконечные скроллы, кнопки, области и т.д. – не очевидны, и это почти всегда пользовательская боль. В отличие от них голос – это, наоборот, очень естественно. Проблема состоит в том, что при всей кажущейся простоте, разработать качественный голосовой интерфейс довольно сложно. Существует мнение, что голосовой интерфейс – это идеальная реализация интерфейса, который вроде бы являются частью системы, но, в то же самое время, не существует в ней в виде физического отображения.

Проектирование голосового интерфейса по сути своей является проектированием пользовательских диалогов. И критериев эффективности здесь довольно много – степень удовлетворенности клиента, глубина разговора и т.д. Сложность разработки диалогов, кроме всего прочего состоит в том, что необходимо сделать их похожими на общение людей друг с другом, а не на комиксовые варианты общения человека с роботом.

Читать дальше →

mzaharov 2 окт 2020 в 22:40

Современное SEO: качество страниц

3 мин

10K

Веб-дизайн * Веб-разработка * Google Web Toolkit * Поисковая оптимизация * Голосовые интерфейсы *

В конце мая с. г. в Google сообщили, что теперь они намерены в алгоритм ранжирования сайтов ввести понятие "качества страницы" (page experience). А в понятие качества страницы они включили: скорость загрузки страницы, интерактивность (т.е. например, чтобы кнопка быстро приобретала способность нажиматься), и стабильность контента во время загрузки (т.е. вы не должны случайно нажимать кнопки или ссылки из-за того что всё на экране прыгает пока страница грузится). Кроме того страница должна быть оптимизирована для мобильных устройств (mobile friendly), безопасна для просмотра, передаваться по протоколу https (не http), и не иметь навязчивой рекламы между страницами (intrusive interstitials).

just_ai 30 сен 2020 в 13:17

Голос в мобильном приложении: учимся вызывать экраны и заполнять формы без рук

8 мин

2.9K

Блог компании Just AIГолосовые интерфейсы * Kotlin * Android * Разработка мобильных приложений *

Как быстро и бесшовно встроить голосовой интерфейс в ваше мобильное приложение? И как научить app-ассистента всему, что оно умеет? В прошлый раз мы взяли опенсорсное лайфстайл-приложение Habitica и показали, как добавить в него помощника и запилить базовый голосовой сценарий «из коробки» (уточнение прогноза погоды и времени).

Теперь перейдем к более продвинутому этапу -- научимся вызывать голосом определенные экраны, делать сложные запросы с NLU и form-filling с помощью голоса прямо внутри приложения.

Изучить туториал

info_habr 3 сен 2020 в 07:03

Who is mr. Marvin?

4 мин

5.7K

Блог компании МТСГаджетыГолосовые интерфейсы * ЗвукУмный дом

В июне этого года мы выпустили на рынок умную колонку с голосовым помощником по имени Марвин. Она может работать до 2 часов без подзарядки. У колонки шесть микрофонов для обработки голосовых команд. ПО полностью разработано внутри МТС без использования сторонних коммерческих решений. В этом посте разберем основные функции и технические характеристики новинки.

Читать дальше →

just_ai 1 сен 2020 в 09:35

Как встроить голосового помощника в любое мобильное приложение. Разбираем на примере Habitica

7 мин

10K

Блог компании Just AIKotlin * Голосовые интерфейсы * Разработка мобильных приложений * Android *

Туториал

Вам не кажется, что многие мобильные приложения стали бы куда удобнее, будь в них голосовое управление? Нет, речь не о том, чтобы вести беседы с банковским ассистентом в чате техподдержки. В основном было бы достаточно голосовой навигации по приложению или form-filling в режиме диалога.

На примере Habitica (опенсорсный app для закрепления привычек и достижения целей, написан на Kotlin) Виталя Горбачёв, архитектор решений в Just AI, показывает, как быстро и бесшовно встроить голосовой интерфейс в функционал любого приложения.

Читать дальше →

Leono 25 авг 2020 в 10:05

Make <your iOS app> talk. Доклад Яндекса

16 мин

3.1K

Блог компании ЯндексiOS * Разработка мобильных приложений * Голосовые интерфейсы * Проектирование API *

Туториал

Cтандартные библиотеки распознавания речи и озвучки текста в iOS дают массу возможностей. Из доклада VolkovRoman вы узнаете, как за счёт минимального количества кода научить ваше приложение проговаривать текст и кастомизировать озвучку. Рома рассмотрел API распознавания речи, его ограничения и особенности, lifecycle запроса на распознавание и методы работы в офлайн-режиме. Вас ждут примеры UX, обход существующих багов и особенности работы с аудиосессией.

— Всем привет, меня зовут Роман Волков. Сегодня мы поговорим о том, как научить ваше мобильное приложение общаться с вашими пользователями.

Читать дальше →

Mobile1 18 авг 2020 в 12:32

Объединяем закрытый WhatsApp и открытый SIP – Часть 1

4 мин

18K

Growth Hacking * Аналитика мобильных приложений * Голосовые интерфейсы * Монетизация мобильных приложений * Системы связи *

Предыдущая статья «Как избежать блокировки в WhatsApp», хотя и получила много минусов, но тем не менее в течение 2 суток была самой читаемой статьей на Хабре – набрала более 20 тыс просмотров.

Поэтому я решил что нужно продолжать с ~~хакингом монстров~~ рассказывать о различных способах использования WhatsApp для бизнеса.

Всем кому интересно – добро пожаловать под кат.

Читать дальше →

morfeusys 13 авг 2020 в 09:51

Алиса на Kotlin: превращаем код в Яндекс.Станцию

7 мин

9.6K

Блог компании Just AIKotlin * Голосовые интерфейсы * Программирование * Хакатоны

Туториал

В июне Яндекс устроил онлайн-хакатон среди разработчиков голосовых навыков. Мы в Just AI как раз обновляли наш опенсорсный фреймворк на Kotlin, чтобы поддержать новые прикольные фичи Алисы. И нужно было придумать какой-то простенький пример для README…

О том, как пара сотен строк кода на Kotlin превратилась в Яндекс.Станцию

читайте в нашей новой статье

bogdan1993 20 июл 2020 в 10:20

Голосовой бот + телефония на полном OpenSource. Часть 1 — создание и обучение текстового бота RU

4 мин

13K

Python * Голосовые интерфейсы * Искусственный интеллект

Из песочницы

В наше время голосовые роботы набирают огромную популярность, от банального заказа такси, до продаж клиентам. Создание голосового бота сводится к трем базовым этапам.

Читать дальше →

bomonin 14 июл 2020 в 17:40

Исследовательский практикум. Голосовые виртуальные ассистенты – что с ними не так?

12 мин

9.4K

Голосовые интерфейсы * Искусственный интеллект

Из песочницы

Введение

Аналитики, исследующие сервисы чат-ботов и виртуальных ассистентов, обещают рост рынка как минимум 30% в год. В абсолютных цифрах, по состоянию на 2019 год, рынок оценивался более чем в 2 миллиарда долларов в год. Виртуальных голосовых помощников выпустили практически все ведущие мировые IT-компании, а основную работу по их популяризации уже провели Apple, Google и Amazon.

На российском рынке тоже наметились свои лидеры в этой области. Первым крупным игроком, запустивших собственного голосового ассистента в России, стал «Яндекс». По данным компании, публикуемым официально, Алисой пользуется 45 миллионов пользователей в месяц, а число ежемесячных запросов к ассистенту – составляет более 1 млрд. По мнению специалистов, 2020 год может стать для рынка голосовых ассистентов переломным – конкуренция платформ и брендов приведет к росту узнаваемости ассистентов.

В общем, то, что рынок голосовых ассистентов – интересная ниша, сомневаться не приходится. И первая идея, которая приходит в голову – взять любой из доступных сервисов ASR (Automatic Speech Recognition) и TTS (Text To Speech), связать их с конструктором ботов, имеющим поддержку NLU (Natural Language Understanding), и все! Тем более что все это довольно легко и быстро можно реализовать в облачных платформах, таких как Twilio и VoxImplant.

Проблема только в том, что полученный результат будет весьма посредственным. В чем же причина этого? Прежде всего попробуем понять почему совокупность довольно-таки неплохих технологий, собранных вместе дают такой посредственный результат. Это важно, т.к. в реальной жизни клиент всегда будет отдавать предпочтение тому сервису, чей голосовой сервис удобнее, интереснее, умнее и быстрее прочих.

Читать дальше →

BashNiPineft 14 июл 2020 в 04:54

Как создать голосового помощника на основе технологий с открытым кодом, не передав вовне ни байта секретной информации

9 мин

22K

Блог компании РН-БашНИПИнефтьГолосовые интерфейсы * Карьера в IT-индустрииНаучно-популярное

Зачем нефтяникам NLP? Как заставить компьютер понимать профессиональный жаргон? Можно ли объяснить машине, что такое «нагнеталка», «приемистость», «затрубное»? Как связаны вновь принятые на работу сотрудники и голосовой ассистент? На эти вопросы мы постараемся ответить в статье о внедрении в ПО для сопровождения нефтедобычи цифрового ассистента, облегчающего рутинную работу геолога-разработчика.

Читать дальше →

+18

1 2 ...

10 11

13 14 15

Голосовые интерфейсы *

Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва

Microsoft 365 Virtual Training Days: Построение интеграции и рабочих процессов Microsoft Teams

Пишем голосового ассистента на Python

Введение

Open Source синтез речи SOVA

Конференция Conversations: инструменты и кейсы разговорного AI от DeepPavlov, SberDevices, CoolGames и не только

Вентилятор для zwift с алисой

Как автоматизировать аудит всех разговоров компании

Open Source распознавание речи SOVA

Голосовой бот + телефония на полном OpenSource. Часть 2 — учим бота слушать и говорить

Исследовательский практикум. Голосовой UX – как сделать голосового виртуального ассистента лучшей версией человека

Почему это важно?

Современное SEO: качество страниц

Голос в мобильном приложении: учимся вызывать экраны и заполнять формы без рук

Who is mr. Marvin?

Ближайшие события

Как встроить голосового помощника в любое мобильное приложение. Разбираем на примере Habitica

Make <your iOS app> talk. Доклад Яндекса

Объединяем закрытый WhatsApp и открытый SIP – Часть 1

Алиса на Kotlin: превращаем код в Яндекс.Станцию

Голосовой бот + телефония на полном OpenSource. Часть 1 — создание и обучение текстового бота RU

Исследовательский практикум. Голосовые виртуальные ассистенты – что с ними не так?

Введение

Как создать голосового помощника на основе технологий с открытым кодом, не передав вовне ни байта секретной информации

Вклад авторов