Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Bobrosoft 29 авг 2022 в 09:55

Как мы сделали распознавание речи нескольких говорящих

9 мин

15K

Блог компании SberDevicesГолосовые интерфейсы * Natural Language Processing * Искусственный интеллектМашинное обучение *

В психологии есть понятие эффекта коктейльной вечеринки: человек способен воспринимать полезную для себя информацию даже в ситуации, когда вокруг него много источников речи и шума. Но насколько хорошо с такой задачей справляется искусственный интеллект? Можно ли добиться высокого качества распознавания речи, когда на записи говорят несколько человек?

Не так давно мы отметили 1 миллион проданных устройств с виртуальными ассистентами Салют. В нашей линейке в числе прочего представлены farfield-устройства, то есть те, с которыми можно “разговаривать” на расстоянии: смарт-дисплей SberPortal, ТВ-медиацентр SberBox Top и умная медиаколонка SberBox Time. В комнатах, где они стоят, может говорить одновременно несколько людей или играть телевизор, что существенно усложняет задачу распознавания. Иногда необходимость распознать больше одного голоса на записи возникает и у клиентов нашего API SmartSpeech — например, если это разговор двух людей.

В статье я расскажу, как мы решали эту проблему. Подробно остановимся на архитектуре нашего решения, узнаем о процессе её создания и возникавших сложностях, послушаем примеры работы системы.

+21

snakers4 12 авг 2022 в 10:16

Теперь наш синтез также доступен в виде бота в Телеграме

2 мин

13K

Мессенджеры * Машинное обучение * Искусственный интеллектГолосовые интерфейсы *

Пользователи жаловались, что демку наших моделей синтеза тяжело запускать в колабе. Поэтому мы сделали бесплатного телеграм-бота, который основан на наших последних моделях синтеза речи.

С ботом можно общаться только напрямую. Бот содержит весь основной функционал последних моделей (работает мгновенно, имеет максимально высокое качество, есть автоматическая простановка ударений и буквы ё). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Также в ближайшем будущем мы раскатим небольшое "полу-праздничное" обновление, которое как нам кажется порадует многих пользователей.

Попробовать

+19

Xeanst 29 июл 2022 в 10:30

Автоматический синтез речи: взгляд лингвиста

8 мин

3.9K

Блог компании Unistar Digital | Юнистар ДиджиталСемантические сети * Машинное обучение * Natural Language Processing * Голосовые интерфейсы *

Что первым придет в голову, если перед нами встанет задача автоматического порождения речи по тексту? Вероятнее всего, мы позаботимся о расстановке пауз между словами, постараемся правильно выбрать интонацию фразы и расставить смысловые акценты. Обязательно построим фонетическую транскрипцию: орфография и произношение далеко не всегда однозначно соответствуют друг другу, о чем компьютер не узнает без нашей помощи. Полученную транскрипцию переведем в цифровой сигнал, который затем преобразуем в звуковые колебания.

CTI 26 июл 2022 в 14:44

Что умеет умный ИТ-секретарь

9 мин

5.4K

Блог компании CTI — Communications. Technology. InnovationsИнтернет вещейГолосовые интерфейсы *

Мы в CTI занимаемся сложными интеграционными проектами и автоматизацией процессов. Делаем это ещё с тех времён, когда вместо какой-нибудь «Алисы» энтузиасты вручную собирали умные розетки на базе ESP8266 или Arduino, а понятие Internet of Things (IoT) не приобрело широкую популярность.

Одна из концепций, которую развиваем, — объединение унифицированных коммуникаций (UC), мультимедия и Интернета вещей (IoT). В первое понятие входит как офисная видеоконференцсвязь, так и умные голосовые помощники. В современных офисных пространствах на стенах перед входом в кабинет вешают информационные тачпанели или используют настольные варианты, которые стоят в самом кабинете. На такую панель без проблем выводится любая информация и простым нажатием на кнопки можно реализовать любой запрос (настроить кондиционер, заказать напитки, запустить проектор, приглушить свет и т.д.). Но для этого нужно нажимать и выбирать пункт из меню. А удобнее ведь просто сказать …

В статье расскажем, как умный секретарь от CTI позволяет через голосовые команды управлять всеми процессами в переговорной комнате.

+19

telecomgod 26 июл 2022 в 10:25

Практическая ботология: как интернет-магазину сэкономить миллионы на подтверждении и хранении заказов

5 мин

1.6K

Блог компании МТТГолосовые интерфейсы * Облачные сервисы * Управление e-commerce *

В этой истории, основанной на реальных событиях, не будет ни сложной бизнес-аналитики, ни длинных строк кода. Только один небольшой голосовой робот – против всей консервативной системы обработки заказов в e-commerce.

-1

AnastasiaGutor 20 июл 2022 в 07:57

Голосовые приложения для Маруси: идеи и разработки слушателей Академии больших данных MADE в VK

4 мин

2.2K

Блог компании VKБлог компании Just AIГолосовые интерфейсы * Учебный процесс в ITМашинное обучение *

Привет, Хабр! В прошлом году мы в Just AI провели курс по разговорному ИИ и диалоговым системам в Академии больших данных MADE от VK. Обучали студентов инструментам NLU (Natural Language Understanding, понимание естественного языка), дизайну разговорных интерфейсов, разработке навыков, глубокому обучению в диалоговых системах, речевым технологиям и другому. В конце ребята делали итоговые проекты — функции (голосовые приложения) для голосового ассистента Маруси. Мы выбрали несколько самых интересных идей, чтобы рассказать о них вам.

+25

snakers4 29 июн 2022 в 08:38

Может ли синтез речи обмануть систему биометрической идентификации?

3 мин

Машинное обучение * Информационная безопасность * Голосовые интерфейсы *

Под одной из наших недавних статей на Хабре я упомянул исследование, подробно рассматривающее вопрос "обмана" коммерческих систем биометрической идентификации с помощью открытых инструментов по клонированию голоса. Завязалась дискуссия на тему "стоит ли бояться, что ваш голос украдут".

Естественно, исследование четкого однозначного ответа не дает, но скорее говорит, что на пути злоумышленников в первую очередь встает несовершенство систем клонирования голоса, количество и качество записей полученных мошенниками, акценты и прочие несовершенства мира. Проценты "обмана" при наличии ряда таких затруднений там не впечатляющие.

Так уж получилось, что один из наших заказчиков, заказывал у нас голос для синтеза … как раз с целью сделать пен-тест коммерческой системы биометрической идентификации. Не могу назвать (и даже не знаю) вендора этой системы, но заказчик это довольно крупная и известная фирма (они попросили не упоминать какие-либо названия).

Короткий ответ на вопрос из заголовка - да, причем весьма успешно. Длинный ответ - скорее всего вам этого бояться не следует. Постараюсь объяснить почему. Поехали.

И почему?

borges 27 июн 2022 в 10:35

Добавляем голосовое управление на русском языке в VR-проект

5 мин

3.7K

Блог компании SberDevicesUnity * AR и VRГолосовые интерфейсы *

Туториал

Тема виртуальной, дополненной реальности, метавселенных набирает обороты. Но что это такое, как должно выглядеть, как этим пользоваться, никто толком пока не знает. Однако, как в своё время переход от десктопных приложений к мобильным, миграция в VR принесёт и новые паттерны взаимодействия с пользователем. Да, в виртуальной реальности уже можно «потрогать» предметы, но этого недостаточно для полноценного решения пользовательских задач. Кажется, что голосовое управление в VR станет ещё более актуальным, чем в мобильных устройствах — в виде, например, голосовых команд или ввода текстовых данных.

Ниже опишу пошагово, как можно добавить голосовое управление на русском языке в VR-проект.

APPKODE 15 июн 2022 в 10:08

Золотое правило MVP: как расставлять приоритеты в разработке голосовых навыков

4 мин

1.8K

Интерфейсы * Искусственный интеллектГолосовые интерфейсы *

Привет, я Никита Муренький, лид команды разговорных продуктов KODE. Мы разрабатываем голосовых ассистентов и чат-ботов. Моя команда занимается проектированием и аналитикой, отвечает за пользовательский опыт и развитие продукта.

Если вы создаёте сложные разговорные продукты с нуля, то важно определить, какие сценарии (интенты) разрабатывать в первую очередь. Для этого есть один простой лайфхак, о котором я сегодня расскажу.

BosonBeard 10 июн 2022 в 08:07

«Смартфон и его команда» или скрываем номер звонящего и управляем вызовом с помощью MTT API

14 мин

2.6K

Блог компании МТТГолосовые интерфейсы * Системы связи * Проектирование API * Программирование *

Туториал

Пофантазируем на тему современных тимуровцев. Мне кажется, что в 2022 это должны быть ребята, которые сделают ~~убойное~~ мобильное приложение для бабушек. Теперь осталось найти для наших тимуровцев достойную задачу.

Итак, представим, что у нас есть собирательный образ персонажа — Бабушка. Да, да именно вот такая прям бабушка с большой буквы, которая всегда напечет пирожков и отсыпет карманных денег в придачу.

Мы так сильно любим Бабушку, дедушку и вообще всех людей на свете, что хотим сделать для них самый удобный и безопасный сервис заказа товаров по телефону.

Естественно, в рамках нашей статьи мы не будем «выдумывать» целый сервис, но попробуем сделать систему общения с персоналом интернет-магазина удобной и защищенной от кражи персональных данных недобросовестными исполнителями. А поможет нам в этом Telecom API от компании MTT.

Сегодня мы с вами:

- используем API, для умной переадресации вызова;

- скроем номер звонящего, от некоторых сотрудников сервиса;

- разберемся с добавочными номерами;

- сделаем аудио сообщения из строки текста;

- обработаем вызовы REST API на сайте с помощью PHP;

- напишем на Kotlin простенький макет приложения для звонка.

Bessome 8 июн 2022 в 14:36

Как 1С и голосовой робот МТТ помогли автоматизировать уведомления клиентов в клинике

14 мин

2.1K

Блог компании МТТПовышение конверсии * Голосовые интерфейсы * SaaS / S+S * 1С *

Туториал

«Здравствуйте, Вы записаны на завтра, 5 июня 2022 года, на прием к стоматологу, в 10:05. Вы придете на прием?».

Пожалуй, каждый из нас, в той или иной форме получал подобный звонок от оператора колл-центра клиники. На фоне другие операторы кликают клавишами, доносится гул их голосов. Усталым голосом оператор отрабатывает скрипт, кладет трубку. Полезный звонок, надо поставить напоминание в телефоне, предупредить коллег, что с 10 до 11 будешь не на связи.

Такие звонки достаточно просто автоматизировать, обрабатывать и отслеживать. Мало того, с точки зрения комфортной беседы, исполнение такого скрипта роботом с простыми вариантами ответа — «Да», «Нет», «Оператор» — создают более привлекательное впечатление о бизнесе, который инициирует звонок. Приятным голосом, за короткое время, вы получаете полезное сообщение, что может быть удобнее?

Читать дальше →

snakers4 6 июн 2022 в 17:35

Теперь наш синтез на 20 языках

7 мин

14K

DIY или Сделай самNatural Language Processing * Голосовые интерфейсы * ЗвукМашинное обучение *

Победитель Технотекст 2022

hero_image

В нашей прошлой статье мы ускорили наши модели в 10 раз, добавили новые высококачественные голоса и управление с помощью SSML, возможность генерировать аудио с разной частотой дискретизации и много других фишек.

В этот раз мы добавили:

1 высококачественный голос на русском языке (eugeny);
Синтез на 20 языках, 174 голоса;
В список языков входят 5 языков народов СНГ: калмыцкий, русский, татарский, узбекский и украинский;
В список языков входят 5 вариаций на тему романо-германских языков: английский, индийский английский, испанский, немецкий, французский;
Также в список языков входят 10 языков народов Индии;
Новую значительно улучшенную модель для простановки ударений и буквы ё со словарем в 4 миллиона слов и точностью 100% (но естественно с рядом оговорок);
Все модели наследуют все "фишки" прошлого релиза, кроме автоматической простановки ударений для языков отличных от русского;

Пока улучшение интерфейсов мы отложили на некоторое время. Ускорить модели еще в 3+ раза мы тоже смогли, но пока с потерей качества, что не позволило нам обновить их прямо в этом релизе.

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →

+61

honyaki 1 июн 2022 в 20:36

Как с помощью Python создать приложение для расшифровки речи в реальном времени

6 мин

22K

Блог компании SkillfactoryВеб-разработка * Python * Программирование * Голосовые интерфейсы *

Туториал

Перевод

Научить ИИ разговаривать шёпотом — непростая задача даже сегодня. Но мы покажем, насколько простыми стали распознавание и транскрипция речи, по крайней мере, на поверхности. Интересно? Тогда добро пожаловать под кат.

SkU4 25 мая 2022 в 11:23

Разработка навыка для «Алисы» на основе Google Keep заметок

4 мин

4.6K

Open source * Google API * Go * Голосовые интерфейсы *

Из песочницы

На данный момент я активно пользуюсь приложением Google Keep для управления заметками на смартфоне. Для покупок в магазине достаточно удобно пользоваться заметками вида "чеклист", о которых и пойдет речь ниже.

Как правило для покупок в магазине используется один и тот же набор наименований. Если заполнить такой список, то в последующем при добавлении новых пунктов будут отображаться подсказки по уже добавленным, что достаточно удобно.

Казалось бы причем тут Алиса... так вот еще удобнее было бы добавлять такие пункты покупок в список, используя голосовой помощник от Яндекса.

BosonBeard 13 мая 2022 в 12:03

«А поговорить?» или делаем звонок для подтверждения заказа в интернет магазине с помощью МТТ VoiceBox

17 мин

2.9K

Визуальное программирование * Голосовые интерфейсы * Облачные сервисы * Интернет-маркетинг * Проектирование API *

Туториал

Экономическая ситуация нынче нестабильная, лишних денег у людей нет. И вот значится обратились ко мне товарищи со словами: "Ты же когда-то там сайты делал, помоги разобраться". После такой просьбы пришлось мне сдувать пыль вековую с постаревших связей нейронных, да бубен шаманский доставать.

Но не переживайте, эта статья не о том, как я спустя 12 лет снова сел ковырять сайты на PHP. Всё это банально и писать об этом на Хабр я бы не стал.

А вот, что мне действительно было интересно, так это поковыряться в настройках голосового бота. Никогда раньше с таким не сталкивался и настолько меня это увлекло, что по горячим следам начал писать статью.

Вы готовы загибать пальцы?

Итак, сегодня мы с вами:

• Настроим сценарий голосового бота для подтверждения интернет заказа.

• Одним глазом взглянем на API для управления ботом и отправим пару запросов через Postman.

• Добавим пару кастомных действий в WooCommerce, чтобы робот вместо оператора разными голосами подтверждал заказ.

AlfaTeam 28 апр 2022 в 14:41

Альф, переведи мне на телефон миллион рублей

14 мин

8.3K

Блог компании Альфа-БанкТестирование IT-систем * Тестирование мобильных приложений * СмартфоныГолосовые интерфейсы *

Или нюансы тестирования и разработки голосового помощника в банковском приложении.

А нюансов достаточно. Например, однажды мы тестировали модуль Яндекса, который закрывает звёздочками нецензурные слова в диалоге с голосовым помощником. Он работает в нашем приложении Альфа-Мобайл с октября 2021 и его зовут Альф (Alf). Он умеет оплачивать счета, переводить на телефон и озвучивает курс доллара голосом Геральта — Всеволода Кузнецова.

В статье мы расскажем как устроен голосовой помощник, как мы тестируем его навыки (даже после лечения зубов), зачем нужны автотесты для проверки работоспособности голосового помощника и где они находятся в пирамиде тестирования, что такое сенситивы и для чего используем нейросеть CAILA (спойлер: от неудобных вопросов).

+15

Rusinov 22 апр 2022 в 21:38

Голосовые ассистенты. Краткий обзор

4 мин

12K

Искусственный интеллектСотовая связьГолосовые интерфейсы *

Сегодня существуют множество текстовых каналов связи (почта, месседжеры, социальные сети и др.), но пользователь иногда отдает предпочтение обычному звонку для передачи большого количества информации. А что будет, если он не дозвониться? Как правило, он пытается позвонить еще раз. И если звонящему это не удается, то он может просто забыть передать необходимую информацию или передать ее со значительной задержкой.

И вот здесь на помощь приходит голосовой ассистент, который не только может пообщаться с абонентом, но и перевести его сообщение в текст и выслать конечному абоненту.

Конечно, данный инструмент нужен не всем, но если у человека высокая голосовая нагрузка или него расписан день по минутам, что нет времени на ответ на звонок, то голосовой ассистент – отличный помощник.

Сейчас абоненту мобильной связи доступны следующие голосовые ассистенты:

kolabaister 18 апр 2022 в 13:13

Настольный клиент для Yandex Speechkit text2speech на коленке

3 мин

4.8K

Проектирование API * Голосовые интерфейсы *

Туториал

Вчера понадобилось мне записать голос для голосового (IVR) меню. Решил воспользоваться голосами от яндекс.облака, тем более что они теперь все высококачественные, и от человеческого неотличимы. Но как бы это сделать поудобнее, чтобы не надо было потом редактировать и конвертировать? Казалось бы, можно воспользоваться демкой на странице описания, но во первых там есть ограничение длины текста, во вторых она дает сохранить только запись в формате ogg, и в третьих иногда добавляет в запись рекламу. Оно и понятно в общем то, эта демка предназначена для показа технологии а не для коммерческого использования.

Резюме - надо получать записи как положено, через api, тем более что оно простое и понятное, только небольшая сложность с авторизацией. Но то что оно несложное не значит что им можно легко и просто с нуля воспользоваться, нужен хоть какой то интерфейс.

Беглый гуглёж ничего не принес, только несколько малопонятных проектов на гитхабе.

Уже думал быстренько наваять какой нибудь свой веб-интерфейс но тут вспомнил что есть Postman. Для тех кто не в теме - это замечательная программа для тестирования любых api интерфейсов.

Под катом - как настроить Postman для преобразования текста в речь.

janvarev 13 апр 2022 в 12:55

Ирина, голосовой помощник. Продолжение

7 мин

22K

Умный домOpen source * Python * Голосовые интерфейсы *

— Слушай, она меня на кухне не слышит.
— Ну да, далековато. Давай дополнительный микрофон протянем.
<покупается 5 метров кабеля>
— О, классно!
— ...
— Теперь в комнате не работает.

Это продолжение статьи Ирина — опенсорс русский голосовой помощник. Offline-ready - про голосового помощника, не зависящего от крупных корпораций. Расскажу, что улучшилось за два месяца с момента прошлой статьи.

TL;DR> Отлажен клиент-сервер с несколькими микрофонами/машинами; можно командовать по всему дому. Сделан Телеграм-клиент. Несколько новых голосов (TTS). Обработка голоса в контексте (можно делать голосовые игры). Интеграция с Home Assistant. И ЕЩЁ больше плагинов и документации.

Ладно, рассказывай, что нового

+39

snakers4 12 апр 2022 в 17:58

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

8 мин

60K

DIY или Сделай самNatural Language Processing * Голосовые интерфейсы * ЗвукМашинное обучение *

hero_image

В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.

Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:

Снизили размер модели в 2 раза;
Научили наши модели делать паузы;
Добавили один высококачественный голос (и бесконечное число случайных);
Ускорили наши модели где-то примерно в 10 раз (!);
Упаковали всех спикеров одного языка в одну модель;
Наши модели теперь могут принимать на вход даже целые абзацы текста;
Добавили функции контроля скорости и высоты речи через SSML;
Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →

+156

101

1 2 ...

5 6

8 9 ...

14 15

Голосовые интерфейсы *

Как мы сделали распознавание речи нескольких говорящих

Теперь наш синтез также доступен в виде бота в Телеграме

Автоматический синтез речи: взгляд лингвиста

Что умеет умный ИТ-секретарь

Практическая ботология: как интернет-магазину сэкономить миллионы на подтверждении и хранении заказов

Голосовые приложения для Маруси: идеи и разработки слушателей Академии больших данных MADE в VK

Может ли синтез речи обмануть систему биометрической идентификации?

Добавляем голосовое управление на русском языке в VR-проект

Золотое правило MVP: как расставлять приоритеты в разработке голосовых навыков

«Смартфон и его команда» или скрываем номер звонящего и управляем вызовом с помощью MTT API

Как 1С и голосовой робот МТТ помогли автоматизировать уведомления клиентов в клинике

Теперь наш синтез на 20 языках

Как с помощью Python создать приложение для расшифровки речи в реальном времени

Ближайшие события

Разработка навыка для «Алисы» на основе Google Keep заметок

«А поговорить?» или делаем звонок для подтверждения заказа в интернет магазине с помощью МТТ VoiceBox

Альф, переведи мне на телефон миллион рублей

Голосовые ассистенты. Краткий обзор

Настольный клиент для Yandex Speechkit text2speech на коленке

Ирина, голосовой помощник. Продолжение

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

Вклад авторов