Все потоки
Поиск
Написать публикацию
Обновить
6.63

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Как управлять просодией в синтезе речи

Время на прочтение7 мин
Количество просмотров8.4K

Привет, Хабр! Меня зовут Дарима Мылзенова, я инженер-исследователь Just AI.

В компании я работаю над задачами синтеза речи. Возможно, вы слышали, как мы синтезировали голос Кроша из Смешариков. В этой статье я хочу поделиться современными методами управления просодией в синтезе речи. Если вас интересует вопрос о том, как можно сделать синтез более реалистичным, то, надеюсь, вам будет полезен этот материал.

Читать далее

Поиск не вставая с дивана, или как подружить приложение со Сбер Ассистентом

Время на прочтение5 мин
Количество просмотров1.2K

Всем привет ? . Зовут меня Илюша Кр, и сегодня я вам расскажу, как же все-таки попросить ассистента принести чипсов сделать поисковый запрос внутри вашего приложения.

Для начала скажу пару слов о себе: я такой же обычный парень, как и вы, работаю разработчиком под Android в онлайн-кинотеатре PREMIER. Но, когда я взял задачу по внедрению голосового помощника Сбера в приложение, моя жизнь разделилась на «до» и «после». Заинтриговал? Тогда читай дальше!

Жми кнопку и полетели

Собираю умный дом с Марусей

Время на прочтение3 мин
Количество просмотров19K

Привет, Хабр! Я уже давно интересуюсь темой личной эффективности и перепробовал много способов её увеличить: тайм-менеджмент, физические нагрузки, питание и другие приёмы и методики. В том числе я затронул тему сна, а особенно то, как именно я просыпаюсь ежедневно.

По утрам большинство людей либо резко встаёт под громкую мелодию будильника, либо по несколько раз откладывает пробуждение, успевая погрузиться в прерывистый сон. Оба варианта негативно влияют на наше здоровье – как физическое, так и ментальное. Поэтому я решил найти формулу идеального пробуждения. С этого началось моё погружение в тему умного дома и в то, как грамотно его организовать.

Читать далее

Голосовое программирование: обзор популярных платформ

Время на прочтение6 мин
Количество просмотров7.6K
Картинка pvproductions, Freepik

В последние годы широко распространились разнообразные голосовые помощники и ассистенты, которые облегчили нашу жизнь и ускорили рутинные операции. Но до сих пор программирование — одна из самых рутинных областей человеческой деятельности — в основной массе остаётся не охваченной подобными технологиями. Тем не менее уже начинают появляться разработки, вносящие интересные изменения и в эту сферу.
Читать дальше →

Как разгрузить операторов отдела поддержки парой сценариев

Время на прочтение4 мин
Количество просмотров1.2K

Подготовили для вас небольшой гайд по созданию простого сценария для голосового бота службы поддержки на примере сервиса Voicebox. Для примера возьмем интернет-провайдера, но сценарий этот универсальный, поэтому вы легко сможете изменить его под свою компанию, чем бы она ни занималась.

Выберем подходящий шаблон и изменим его под свои задачи. Также познакомимся с типами блоков, а затем выполним настройку отдельных блоков сценария и добавим нужные переходы.

Читать далее

Как голосовой робот в мобильной CRM для коллекторов помогает повысить уровень сбора платежей и защитить должников

Время на прочтение11 мин
Количество просмотров1.6K

Год назад я рассказал на Хабре, как мы сделали заказное мобильное приложение для коллекторов. Речь и тогда и сейчас только о технологиях, не о этике и практике взысканий. Сегодня эта разработка развилась в полноценную мобильную CRM с голосовым роботом (робот — это теперь и отдельное ПО). И что важно, приложение не только полностью цифровизирует работу выездного коллектора, но и обладает встроенной защитой должников и непричастных лиц в соответствии с законом №230-ФЗ.

Читать далее

Наш публичный детектор голоса стал лучше

Время на прочтение1 мин
Количество просмотров4.5K

Мы очень подробно рассказывали про наш детектор голоса на Хабре тут и тут. Не вижу смысла повторяться, просто очень кратко опишу, что стало лучше.

И что же?

Антикризисная workstation для ML с тестами на реальной задаче Text to Speech

Время на прочтение4 мин
Количество просмотров11K

Как сказал бы ныне великий классик собственная рабочая станция для ML это не роскошь, а средство для обучения. Да и к тому же арендованный сервер это не всегда, удобно быстро и безопасно.

Читать далее

Как создать сценарии обзвона базы холодных и «спящих» клиентов в Digital

Время на прочтение4 мин
Количество просмотров1.7K

Одна из главных проблем многих диджитал-агентств заключается в том, что у менеджеров по продажам часто не доходят руки до обзвона старых клиентов, переставших сотрудничать с компанией. Да и с холодными нередко возникают трудности, если база для прозвона большая. В статье приведем примеры создания сценариев для голосового бота Voicebox, который поможет справиться с этим, а также выполним его детальную настройку.

Читать далее

Edge AI чипы от Kneron. Собираем оригинальный девайс

Время на прочтение12 мин
Количество просмотров2.5K

Custom Device

Привет, я Антон Маслов, ведущий разработчик в MTS AI.


В предыдущих статьях я рассказывал о том, как работает распознавание изображений на чипе KL520 с помощью нейросети Tiny YOLOv3, а так же о том, как устроена, из чего состоит и как собирается прошивка чипов KL520. И вот теперь, когда мы познакомились с технологией Edge AI в общих чертах, мы можем отправиться в самое увлекательное путешествие и создать на базе KL520 собственный оригинальный девайс!


Читать дальше →

Что такое тезаурус и как определить семантическое сходство слов

Время на прочтение7 мин
Количество просмотров15K

При разработке чат-ботов и голосовых ассистентов часто возникает задача нахождения семантического сходства слов. Причина тому – наличие в языке большого количества схожих по смыслу слов и выражений.

Читать далее

Алиса, Алекса летит в космос! Как голосовые помощники бороздят просторы Вселенной

Время на прочтение5 мин
Количество просмотров1.7K

Меня зовут Мария, я разрабатываю разговорные интерфейсы в самом лингвистическом подразделении компании KODE — команде Conversational Products и вместе с коллегами веду телеграм-канал о разговорных технологиях Hey Voice.

В очередной раз настраивая не очень умную розетку, я задумалась о том, как когда-нибудь космические корабли будут бороздить просторы Вселенной с помощью виртуального ассистента. Пока что это вопрос открытый, учитывая, как голосовые помощники порой лажают.

Читать далее

Как мы сделали распознавание речи нескольких говорящих

Время на прочтение9 мин
Количество просмотров15K

В психологии есть понятие эффекта коктейльной вечеринки: человек способен воспринимать полезную для себя информацию даже в ситуации, когда вокруг него много источников речи и шума. Но насколько хорошо с такой задачей справляется искусственный интеллект? Можно ли добиться высокого качества распознавания речи, когда на записи говорят несколько человек?

Не так давно мы отметили 1 миллион проданных устройств с виртуальными ассистентами Салют. В нашей линейке в числе прочего представлены farfield-устройства, то есть те, с которыми можно “разговаривать” на расстоянии: смарт-дисплей SberPortal, ТВ-медиацентр SberBox Top и умная медиаколонка SberBox Time. В комнатах, где они стоят, может говорить одновременно несколько людей или играть телевизор, что существенно усложняет задачу распознавания. Иногда необходимость распознать больше одного голоса на записи возникает и у клиентов нашего API SmartSpeech — например, если это разговор двух людей.

В статье я расскажу, как мы решали эту проблему. Подробно остановимся на архитектуре нашего решения, узнаем о процессе её создания и возникавших сложностях, послушаем примеры работы системы.

Читать далее

Ближайшие события

Теперь наш синтез также доступен в виде бота в Телеграме

Время на прочтение2 мин
Количество просмотров12K

Пользователи жаловались, что демку наших моделей синтеза тяжело запускать в колабе. Поэтому мы сделали бесплатного телеграм-бота, который основан на наших последних моделях синтеза речи.

С ботом можно общаться только напрямую. Бот содержит весь основной функционал последних моделей (работает мгновенно, имеет максимально высокое качество, есть автоматическая простановка ударений и буквы ё). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Также в ближайшем будущем мы раскатим небольшое "полу-праздничное" обновление, которое как нам кажется порадует многих пользователей.

Попробовать

Автоматический синтез речи: взгляд лингвиста

Время на прочтение8 мин
Количество просмотров3.9K

Что первым придет в голову, если перед нами встанет задача автоматического порождения речи по тексту? Вероятнее всего, мы позаботимся о расстановке пауз между словами, постараемся правильно выбрать интонацию фразы и расставить смысловые акценты. Обязательно построим фонетическую транскрипцию: орфография и произношение далеко не всегда однозначно соответствуют друг другу, о чем компьютер не узнает без нашей помощи.  Полученную транскрипцию переведем в цифровой сигнал, который затем преобразуем в звуковые колебания. 

Читать далее

Что умеет умный ИТ-секретарь

Время на прочтение9 мин
Количество просмотров5.4K

Мы в CTI занимаемся сложными интеграционными проектами и автоматизацией процессов. Делаем это ещё с тех времён, когда вместо какой-нибудь «Алисы» энтузиасты вручную собирали умные розетки на базе ESP8266 или Arduino, а понятие Internet of Things (IoT) не приобрело широкую популярность.

Одна из концепций, которую развиваем, — объединение унифицированных коммуникаций (UC), мультимедия и Интернета вещей (IoT). В первое понятие входит как офисная видеоконференцсвязь, так и умные голосовые помощники.  В современных офисных пространствах на стенах перед входом в кабинет вешают информационные тачпанели или используют настольные варианты, которые стоят в самом кабинете. На такую панель без проблем выводится любая информация и простым нажатием на кнопки можно реализовать любой запрос (настроить кондиционер, заказать напитки, запустить проектор, приглушить свет и т.д.). Но для этого нужно нажимать и выбирать пункт из меню. А удобнее ведь просто сказать …

В статье расскажем, как умный секретарь от CTI позволяет через голосовые команды управлять всеми процессами в переговорной комнате.

Читать далее

Практическая ботология: как интернет-магазину сэкономить миллионы на подтверждении и хранении заказов

Время на прочтение5 мин
Количество просмотров1.6K

В этой истории, основанной на реальных событиях, не будет ни сложной бизнес-аналитики, ни длинных строк кода. Только один небольшой голосовой робот – против всей консервативной системы обработки заказов в e-commerce.

Читать далее

Голосовые приложения для Маруси: идеи и разработки слушателей Академии больших данных MADE в VK

Время на прочтение4 мин
Количество просмотров2.2K

Привет, Хабр! В прошлом году мы в Just AI провели курс по разговорному ИИ и диалоговым системам в Академии больших данных MADE от VK. Обучали студентов инструментам NLU (Natural Language Understanding, понимание естественного языка), дизайну разговорных интерфейсов, разработке навыков, глубокому обучению в диалоговых системах, речевым технологиям и другому. В конце ребята делали итоговые проекты — функции (голосовые приложения) для голосового ассистента Маруси. Мы выбрали несколько самых интересных идей, чтобы рассказать о них вам. 

Читать далее

Может ли синтез речи обмануть систему биометрической идентификации?

Время на прочтение3 мин
Количество просмотров5K

Под одной из наших недавних статей на Хабре я упомянул исследование, подробно рассматривающее вопрос "обмана" коммерческих систем биометрической идентификации с помощью открытых инструментов по клонированию голоса. Завязалась дискуссия на тему "стоит ли бояться, что ваш голос украдут".

Естественно, исследование четкого однозначного ответа не дает, но скорее говорит, что на пути злоумышленников в первую очередь встает несовершенство систем клонирования голоса, количество и качество записей полученных мошенниками, акценты и прочие несовершенства мира. Проценты "обмана" при наличии ряда таких затруднений там не впечатляющие.

Так уж получилось, что один из наших заказчиков, заказывал у нас голос для синтеза … как раз с целью сделать пен-тест коммерческой системы биометрической идентификации. Не могу назвать (и даже не знаю) вендора этой системы, но заказчик это довольно крупная и известная фирма (они попросили не упоминать какие-либо названия).

Короткий ответ на вопрос из заголовка - да, причем весьма успешно. Длинный ответ - скорее всего вам этого бояться не следует. Постараюсь объяснить почему. Поехали.

И почему?

Добавляем голосовое управление на русском языке в VR-проект

Время на прочтение5 мин
Количество просмотров3.6K

Тема виртуальной, дополненной реальности, метавселенных набирает обороты. Но что это такое, как должно выглядеть, как этим пользоваться, никто толком пока не знает. Однако, как в своё время переход от десктопных приложений к мобильным, миграция в VR принесёт и новые паттерны взаимодействия с пользователем. Да, в виртуальной реальности уже можно «потрогать» предметы, но этого недостаточно для полноценного решения пользовательских задач. Кажется, что голосовое управление в VR станет ещё более актуальным, чем в мобильных устройствах — в виде, например, голосовых команд или ввода текстовых данных. 

Ниже опишу пошагово, как можно добавить голосовое управление на русском языке в VR-проект.

Читать далее