Обновить
20.2

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва

Время на прочтение7 мин
Количество просмотров20K
Всем привет! Меня зовут Олег Петров, я руковожу группой R&D в Центре речевых технологий. Мы давно работаем не только над распознаванием речи, но и умеем синтезировать голоса. Самый простой пример, для чего это нужно бизнесу: чтобы для каждого нового сценария, которому обучают голосовых роботов, не нужно было организовывать новую запись с человеком, который его когда-то озвучил. Ещё мы развиваем продукты на основе голосовой и лицевой биометрии и аналитики по голосовым данным. В общем, работаем над серьёзными и сложными задачами для разного бизнеса.



Но недавно к нам пришли коллеги из Сбера с предложением поучаствовать в развлекательной истории — «озвучить» героя Леонида Куравлёва в новом ролике. Для него лицо Куравлева было воссоздано по кадрам из фильма «Иван Васильевич меняет профессию» и наложено на лицо другого актера с помощью технологии Deepfake. Чтобы мы смогли не только увидеть, но и услышать в 2020 году Жоржа Милославского, мы решили помочь коллегам. Ведь с годами голос у всех нас меняется и даже если бы Леонид Вячеславович озвучил героя, эффект был бы не тот.

Под катом я расскажу, почему эта, уже во многом привычная задача голосового синтеза, оказалась чуть сложнее, чем мы ожидали, и поясню, почему такие голоса не смогут обмануть качественные системы биометрической авторизации.

Microsoft 365 Virtual Training Days: Построение интеграции и рабочих процессов Microsoft Teams

Время на прочтение1 мин
Количество просмотров1.1K
Платформа разработки Microsoft Teams упрощает интеграцию приложений и сервисов, повышает эффективность, помогает быстрее принимать решения и упрощает взаимодействие. На мероприятии все желающие узнают как:

  • создавать приложения для Teams, а также решения, которые могут повысить эффективность вашей организации при работе как в офисе, так и удаленно.
  • преобразовывать повседневные бизнес-процессы с помощью средств Microsoft 365 для интеграции с Power Platform, SharePoint и Microsoft Office;
  • расширить возможности Microsoft 365 и создавать уникальные интеллектуальные приложения с помощью инструментов Microsoft Graph

Когда: 3-4 декабря
Язык: английский с субтитрами на русском

Регистрация

Под катом краткое расписание.

Читать дальше →

Пишем голосового ассистента на Python

Время на прочтение16 мин
Количество просмотров194K

Введение


Технологии в области машинного обучения за последний год развиваются с потрясающей скоростью. Всё больше компаний делятся своими наработками, тем самым открывая новые возможности для создания умных цифровых помощников.

В рамках данной статьи я хочу поделиться своим опытом реализации голосового ассистента и предложить вам несколько идей для того, чтобы сделать его ещё умнее и полезнее.

image
Читать дальше →

Open Source синтез речи SOVA

Время на прочтение9 мин
Количество просмотров24K

Всем привет! Ранее мы выкладывали статью про наше распознавание речи, сегодня мы хотим рассказать вам о нашем опыте по созданию синтеза речи на русском языке, а также поделиться ссылками на репозитории и датасеты для свободного использования в любых целях.



Если вам интересна история о том, как мы разработали собственный сервис синтеза речи и каких результатов нам удалось достигнуть, то добро пожаловать под кат.

Конференция Conversations: инструменты и кейсы разговорного AI от DeepPavlov, SberDevices, CoolGames и не только

Время на прочтение2 мин
Количество просмотров1.3K

4 декабря – впервые полностью в онлайн-формате! – пройдет Conversations, главная конференция по технологиям разговорного искусственного интеллекта для разработчиков и бизнеса. В потоках Business и Technology выступят эксперты SberDevices, CoolGames, Альфа-Банка, Just AI, Работа.Ру, Viber, Qiwi, DeepPavlov, ДоДо Пицца и другие лидеры индустрии.

Как (и зачем!) разрабатывать голосовые сервисы для умных экранов? Какие преимущества для conversational UI дает языковая модель GPT-3? Как использовать аналитику OneDash в чатботах? Как голосовой ассистент может обогатить геймерский опыт – например, в Dota 2? В общем, будет много интересного!

О чем расскажут на Conversations?

Вентилятор для zwift с алисой

Время на прочтение4 мин
Количество просмотров4.3K
Всем привет. Хочу заранее извинится за корявось решений, кода и изготовления. Во-первых, у меня очень кривые руки, во-вторых, стараюсь сделать с минимальными усилиями и из того, что есть под рукой, — главное чтоб работало стабильно и выполняло нужные функции.

Цель: тренируюсь регулярно на велосипеде, а зимой тренировки проходят дома на велостанке (кстати, он тоже у меня самодельный и это другая история) для обдува практически все, кто так тренируется, используют вентилятор.
Читать дальше →

Как автоматизировать аудит всех разговоров компании

Время на прочтение3 мин
Количество просмотров3.7K
image

Разговоры с клиентами записывают практически все компании. Но для прослушивания всех разговоров необходимо столько же человек, сколько их “наговорило”, поэтому обращаются к этим записям, как правило крайне редко.

Происходит это всего лишь в двух случаях. Во-первых, когда необходимо найти “кто прав?”, то есть в случае возникновения спорных вопросов с клиентами или поставщиками. Во-вторых, когда в контактном центре налажен процесс выборочного аудита разговоров для оценки. В последнем случае существуют статистические формулы, которые дают нам следующие выкладки. Чтобы с уверенностью 90±5% сказать, что информация об аудите достоверна, необходимо прослушать 214 разговоров из каждой тысячи. Иными словами на каждые 5 операторов необходимо одного аудитора с аналогичным графиком работы. А если учитывать, что некоторые колл-центры работают круглосуточно, то требуемое количество аудиторов возрастает.

Таким образом получается, что компании прослушивают всего 1-3% разговоров. Однако в диалогах с клиентами можно найти довольно много интересного, если провести голосовую аналитику. Поиск можно осуществлять по следующим критериям:

Open Source распознавание речи SOVA

Время на прочтение16 мин
Количество просмотров32K
Мы в Наносемантике занимаемся виртуальными ассистентами (чат-ботами и голосовыми помощниками) для компаний с большими колл-центрами. Раньше мы использовали распознавание и синтез речи других компаний, а 1.5 года назад решили, что хотим быть самодостаточным вендором.



Если интересно, зачем нам это, что у нас получилось, а также для чего нам выкладывать ASR & TTS в Open Source – добро пожаловать под кат.

Голосовой бот + телефония на полном OpenSource. Часть 2 — учим бота слушать и говорить

Время на прочтение5 мин
Количество просмотров12K

В первой части статьи я описал как создать простого чат бота, в этой статье мы научим нашего бота говорить и слушать русскую речь и переводить ее в текст.
Читать дальше →

Исследовательский практикум. Голосовой UX – как сделать голосового виртуального ассистента лучшей версией человека

Время на прочтение9 мин
Количество просмотров1.8K

Почему это важно?


Знаете, какой самый надежный способ сделать что-то идеально правильно? Надо просто подсмотреть это в живой природе, т.е. постараться увидеть – как данную проблему решила эволюция, ну или, если хотите, реализовал Бог, т.к. характер природы мироустройства каждый выбирает для себя сам. Если бы кнопки были самым оптимальным вариантом реализации интерфейса общения, то они, наверное, располагались бы у нас на лбу, ну или на каком-нибудь другом видном и легко доступном месте.

Любой UI, все эти бесконечные скроллы, кнопки, области и т.д. – не очевидны, и это почти всегда пользовательская боль. В отличие от них голос – это, наоборот, очень естественно. Проблема состоит в том, что при всей кажущейся простоте, разработать качественный голосовой интерфейс довольно сложно. Существует мнение, что голосовой интерфейс – это идеальная реализация интерфейса, который вроде бы являются частью системы, но, в то же самое время, не существует в ней в виде физического отображения.

image

Проектирование голосового интерфейса по сути своей является проектированием пользовательских диалогов. И критериев эффективности здесь довольно много – степень удовлетворенности клиента, глубина разговора и т.д. Сложность разработки диалогов, кроме всего прочего состоит в том, что необходимо сделать их похожими на общение людей друг с другом, а не на комиксовые варианты общения человека с роботом.
Читать дальше →

Современное SEO: качество страниц

Время на прочтение3 мин
Количество просмотров10K

В конце мая с. г. в Google сообщили, что теперь они намерены в алгоритм ранжирования сайтов ввести понятие "качества страницы" (page experience). А в понятие качества страницы они включили: скорость загрузки страницы, интерактивность (т.е. например, чтобы кнопка быстро приобретала способность нажиматься), и стабильность контента во время загрузки (т.е. вы не должны случайно нажимать кнопки или ссылки из-за того что всё на экране прыгает пока страница грузится). Кроме того страница должна быть оптимизирована для мобильных устройств (mobile friendly), безопасна для просмотра, передаваться по протоколу https (не http), и не иметь навязчивой рекламы между страницами (intrusive interstitials).

Читать далее

Голос в мобильном приложении: учимся вызывать экраны и заполнять формы без рук

Время на прочтение8 мин
Количество просмотров2.9K

Как быстро и бесшовно встроить голосовой интерфейс в ваше мобильное приложение? И как научить app-ассистента всему, что оно умеет? В прошлый раз мы взяли опенсорсное лайфстайл-приложение Habitica и показали, как добавить в него помощника и запилить базовый голосовой сценарий «из коробки» (уточнение прогноза погоды и времени).

Теперь перейдем к более продвинутому этапу -- научимся вызывать голосом определенные экраны, делать сложные запросы с NLU и form-filling с помощью голоса прямо внутри приложения.

Изучить туториал

Who is mr. Marvin?

Время на прочтение4 мин
Количество просмотров5.7K
В июне этого года мы выпустили на рынок умную колонку с голосовым помощником по имени Марвин. Она может работать до 2 часов без подзарядки. У колонки шесть микрофонов для обработки голосовых команд. ПО полностью разработано внутри МТС без использования сторонних коммерческих решений. В этом посте разберем основные функции и технические характеристики новинки.


Читать дальше →

Ближайшие события

Как встроить голосового помощника в любое мобильное приложение. Разбираем на примере Habitica

Время на прочтение7 мин
Количество просмотров10K
Вам не кажется, что многие мобильные приложения стали бы куда удобнее, будь в них голосовое управление? Нет, речь не о том, чтобы вести беседы с банковским ассистентом в чате техподдержки. В основном было бы достаточно голосовой навигации по приложению или form-filling в режиме диалога.

На примере Habitica (опенсорсный app для закрепления привычек и достижения целей, написан на Kotlin) Виталя Горбачёв, архитектор решений в Just AI, показывает, как быстро и бесшовно встроить голосовой интерфейс в функционал любого приложения.


Читать дальше →

Make <your iOS app> talk. Доклад Яндекса

Время на прочтение16 мин
Количество просмотров3.1K
Cтандартные библиотеки распознавания речи и озвучки текста в iOS дают массу возможностей. Из доклада VolkovRoman вы узнаете, как за счёт минимального количества кода научить ваше приложение проговаривать текст и кастомизировать озвучку. Рома рассмотрел API распознавания речи, его ограничения и особенности, lifecycle запроса на распознавание и методы работы в офлайн-режиме. Вас ждут примеры UX, обход существующих багов и особенности работы с аудиосессией.


— Всем привет, меня зовут Роман Волков. Сегодня мы поговорим о том, как научить ваше мобильное приложение общаться с вашими пользователями.
Читать дальше →

Объединяем закрытый WhatsApp и открытый SIP – Часть 1

Время на прочтение4 мин
Количество просмотров18K
Предыдущая статья «Как избежать блокировки в WhatsApp», хотя и получила много минусов, но тем не менее в течение 2 суток была самой читаемой статьей на Хабре – набрала более 20 тыс просмотров.

Поэтому я решил что нужно продолжать с хакингом монстров рассказывать о различных способах использования WhatsApp для бизнеса.

Всем кому интересно – добро пожаловать под кат.
Читать дальше →

Алиса на Kotlin: превращаем код в Яндекс.Станцию

Время на прочтение7 мин
Количество просмотров9.6K

В июне Яндекс устроил онлайн-хакатон среди разработчиков голосовых навыков. Мы в Just AI как раз обновляли наш опенсорсный фреймворк на Kotlin, чтобы поддержать новые прикольные фичи Алисы. И нужно было придумать какой-то простенький пример для README…

О том, как пара сотен строк кода на Kotlin превратилась в Яндекс.Станцию
читайте в нашей новой статье

Голосовой бот + телефония на полном OpenSource. Часть 1 — создание и обучение текстового бота RU

Время на прочтение4 мин
Количество просмотров13K

В наше время голосовые роботы набирают огромную популярность, от банального заказа такси, до продаж клиентам. Создание голосового бота сводится к трем базовым этапам.
Читать дальше →

Исследовательский практикум. Голосовые виртуальные ассистенты – что с ними не так?

Время на прочтение12 мин
Количество просмотров9.4K

Введение


Аналитики, исследующие сервисы чат-ботов и виртуальных ассистентов, обещают рост рынка как минимум 30% в год. В абсолютных цифрах, по состоянию на 2019 год, рынок оценивался более чем в 2 миллиарда долларов в год. Виртуальных голосовых помощников выпустили практически все ведущие мировые IT-компании, а основную работу по их популяризации уже провели Apple, Google и Amazon.

image

На российском рынке тоже наметились свои лидеры в этой области. Первым крупным игроком, запустивших собственного голосового ассистента в России, стал «Яндекс». По данным компании, публикуемым официально, Алисой пользуется 45 миллионов пользователей в месяц, а число ежемесячных запросов к ассистенту – составляет более 1 млрд. По мнению специалистов, 2020 год может стать для рынка голосовых ассистентов переломным – конкуренция платформ и брендов приведет к росту узнаваемости ассистентов.

В общем, то, что рынок голосовых ассистентов – интересная ниша, сомневаться не приходится. И первая идея, которая приходит в голову – взять любой из доступных сервисов ASR (Automatic Speech Recognition) и TTS (Text To Speech), связать их с конструктором ботов, имеющим поддержку NLU (Natural Language Understanding), и все! Тем более что все это довольно легко и быстро можно реализовать в облачных платформах, таких как Twilio и VoxImplant.

Проблема только в том, что полученный результат будет весьма посредственным. В чем же причина этого? Прежде всего попробуем понять почему совокупность довольно-таки неплохих технологий, собранных вместе дают такой посредственный результат. Это важно, т.к. в реальной жизни клиент всегда будет отдавать предпочтение тому сервису, чей голосовой сервис удобнее, интереснее, умнее и быстрее прочих.
Читать дальше →

Как создать голосового помощника на основе технологий с открытым кодом, не передав вовне ни байта секретной информации

Время на прочтение9 мин
Количество просмотров22K
image

Зачем нефтяникам NLP? Как заставить компьютер понимать профессиональный жаргон? Можно ли объяснить машине, что такое «нагнеталка», «приемистость», «затрубное»? Как связаны вновь принятые на работу сотрудники и голосовой ассистент? На эти вопросы мы постараемся ответить в статье о внедрении в ПО для сопровождения нефтедобычи цифрового ассистента, облегчающего рутинную работу геолога-разработчика.
Читать дальше →