Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Статьи Посты Новости Авторы Компании

kerenskiy 17 апр 2023 в 17:11

openHAB + Алиса = OH Cloud

6 мин

4.8K

СофтУмный домИнтернет вещейЛайфхаки для гиковГолосовые интерфейсы*

Доброго времени суток, уважаемые хабровчане!

Сегодня я хотел бы рассказать про навык (интеграцию) голосового помошника Яндекс Алисы с умным домом, построенным на openHAB. Как мы все знаем, управление умным домом с помощью голосовых команд прочно вошло в нашу жизнь - GoogleHome, Homekit, Умный дом с Алисой и прочее прочее давно уже на слуху у каждого. Не обошел этот тренд и опенсурс систем умного дома, но именно голосовой ассистент Яндекса из коробки нигде не поддерживается.

И если для HomeAssistant давно уже был написан компонент Yandex Smart Home , позволяющий интегрировать Алису в умный дом, то в случае с openHAB все гораздо печальнее.

Единственным способом интеграции Алисы в openHAB был навык от KnopkaDom, но судьба его, к сожалению, сложилась не очень. На данным момент навык не работает как должно, сайт недоступен, и дальнейшее развитие проекта крайне туманно.

Идея создать простую и удобную, а главное надежную, интеграцию Алисы в УД openHAB витала в воздухе давно, но только сегодня получилось ее осуществить! Всем, кому стало интересно, добро пожаловать под кат.

telecomgod 13 апр 2023 в 09:09

Почему 90% звонков бесполезны, и как правильно применять конструктор ботов

Простой

5 мин

2.1K

Блог компании МТТОблачные сервисы*Голосовые интерфейсы*

Мнение

Звонки от спамеров воспринимают негативно более 76% абонентов, пишут Tinkoff Data. 65% опрошенных раздражают такие звонки вне зависимости от того, звонит робот или человек. И всё это от того, что компании просто не умеют настраивать сценарии или используют неправильную стратегию общения с клиентами. А если совсем честно — в большинстве компаний просто нет достаточной культуры продвижения своих услуг.

-2

JetHabr 5 апр 2023 в 15:01

Исторический момент: ChatGPT обрёл «суперсилу Wolfram»

Средний

18 мин

32K

Блог компании Инфосистемы ДжетПоисковые технологии*Машинное обучение*Искусственный интеллектГолосовые интерфейсы*

Обзор

Перевод

Четвёртая версия ChatGPT одних заставила пищать от восторга, а других повергла в уныние. Кто-то уже нашёл этой системе множество творческих применений, а кто-то пророчит, что эта нейросеть лишит работы кучу людей. Теперь возможности ChatGPT стали ещё шире: систему интегрировали с Wolfram | Alpha, легендарным движком для вычисления ответов в самых разных областях знания. Мы перевели для вас огромную подробную статью об этом от одного из разработчиков Wolfram | Alpha.

+52

janvarev 27 мар 2023 в 16:44

Ирина, голосовой помощник — теперь и со вкусом GPT-3

Средний

5 мин

18K

Open source*Python*Умный домГолосовые интерфейсы*

«Лама... Альпака...Чатгпт...» — раздавалась в уютненьком чатике по Ирине.

Хабр был не лучше — статьи по работе с GPT множились как грибы, а в комментах раздавались возгласы в духе «Дайте мне голосового помощника, с которым можно болтать!»

Если честно, еще в первой статье про Ирину я говорил, что небольшой фанат именно общения с виртуальным помощником. Помощник должен выполнять команды, казалось мне.

Тем не менее, и меня заинтересовало, насколько весело будет именно болтать с GPT, но самому в коде и платном API‑доступе разбираться не хотелось. Но сегодня утром меня снабдили и примером, и ключиком...

‑-

Это продолжение моих статей о разработке голосового помощника Ирины, не зависящего от крупных корпораций. У нас есть ~~печеньки~~:

— Полностью оффлайн SpeechToText и TextToSpeech
— Поддержка плагинов
— Готовые команды «таймер», «погода» и ряд прочих. Поддержка HomeAssistant.
— Поддержка работы в клиент‑серверном режиме — сервер + куча микрофонов + Телеграм‑клиент, например.

Расскажу, что улучшилось за прошедший год с момента прошлой статьи.

TL;DR> Добавлен плагин для общения с GPT-3 нейросетью. Сделан пакет упрощенной установки под Windows — «скачай и запусти». Сделано два веб‑клиента — один распознает слова прям в браузере (тяжелый), другой отправляет весь звуковой поток на сервер (легкий) — так что можно запускать клиенты, например, на смартфоне. Добавлен TTS Silero v3 — имхо, лучшее озвучивание доступное в открытом доступе. Сделан докер‑образ для быстрого запуска Ирины без установки зависимостей. Добавлено нечеткое распознавание фраз. Обновлена VOSK‑модель распознавания голоса на специально натренированную для Ирины.

+38

bugman 26 мар 2023 в 18:35

Что не так с умными колонками и голосовыми ассистентами?

8 мин

39K

Машинное обучение*Искусственный интеллектУмный домГолосовые интерфейсы*

Мнение

Если вы когда-нибудь слышали фразу "дьявол в деталях", вы понимаете, что условная Лада Гранта от условного Мерседеса отличается не более, чем на несколько процентов. Фактически обе машины ездят и возят своих пассажиров - это и есть главная их функция. Но внимание к мелочам и продуманный пользовательский опыт (UX) это и есть те самые несколько процентов, которые так разительно влияют на наше восприятие продукта.

Попробуем применить этот угол зрения к умным колонкам и голосовым ассистентам. И попытаемся понять, почему же все они пока ещё Гранты. И чего именно им не хватает до Мерседесов.

Что же с ним не так и как это исправить?

+49

345

sterling239 20 фев 2023 в 16:09

Как я сделал синтез своего голоса

Простой

12 мин

29K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектЗвукГолосовые интерфейсы*

Кейс

Всем привет! Меня зовут Гриша Стерлинг, я занимаюсь синтезом речи в SberDevices. Недавно прошла конференция AI Journey, где я рассказал, как сделал синтез своего голоса. За 15 минут выступления я не успел рассказать все, поэтому решил написать большой пост с деталями. Он будет интересен датасаентистам, людям из бизнеса и ai‑энтузиастам. Приглашаю всех под кат.

+25

elezarkun 15 фев 2023 в 10:58

Как мы делали AEC для воспроизведения звука через HDMI на Станции Макс

Средний

7 мин

14K

Блог компании ЯндексПроизводство и разработка электроники*Умный домЗвукГолосовые интерфейсы*

В недавнем апдейте прошивки для Яндекс Станции Макс мы добавили поддержку вывода звука по кабелю HDMI при просмотре фильмов. Если у вашего телевизора хорошая акустика (или к нему подключена качественная аудиосистема), теперь можно слушать аудиодорожку через неё. Это обновление мы выпустили только сейчас, потому что оно потребовало нетривиальных технических решений. Например, нужно было сделать эхоподавление для HDMI. Вот об этом и поговорим — сначала обсудим историю технологий и проблемы с подавлением собственного звука устройства, а затем перейдём к нашему решению.

Читать дальше →

+35

kseniaegorova 14 фев 2023 в 18:20

Выпускные проекты наших «бауманцев»

11 мин

6.5K

Блог компании VKУчебный процесс в ITГолосовые интерфейсы*

Новая порция выпускных проектов, на этот раз — студентов нашего образовательного проекта в МГТУ им. Баумана. Ребята сами опишут свои разработки, а посмотреть видео с защиты можно здесь. Если вы хотите попасть на учебу в образовательные центры VK, информацию об открытых наборах и курсах можно найти здесь.

+18

Roosh 10 фев 2023 в 16:04

Что под капотом «ответов на вопросы» Маруси?

16 мин

3.9K

Блог компании VKМашинное обучение*Голосовые интерфейсы*

Привет, это команда ответов на вопросы Маруси.

Этот материал состоит из двух частей. Это вторая часть (первая часть). В ней мы чуть глубже копнём технический аспект того, как устроены ответы на вопросы Маруси.

В первой части мы поверхностно рассмотрели механизм, позволяющий нашему голосовому помощнику понимать вопросы и реагировать на них. Теперь поговорим о том, как мы некоторое время назад создавали систему ответов на вопросы, и с помощью каких решений достигался результат, соответствующий как требованиям пользователей, так и техническим ограничениям.

Материал может быть интересен тем, кто только начинает свой путь в NLP или разрабатывает аналогичные решения, но не обладает несколькими стойками c DGX.

+33

Amvera_Speech 9 фев 2023 в 13:12

Предоставляем бесплатное облачное распознавание речи ASR

Простой

2 мин

2.9K

Блог компании AmveraOpen source*Семантика*Машинное обучение*Голосовые интерфейсы*

В этой статье мы, расскажем, как сделали первое действительно бесплатное облачное распознавание речи и как им воспользоваться.

Разработчики систем распознавания речи, как правило, используют поминутную тарификацию распознавания. В одной из прошлых статей я уточнял почему считаю это далеко не всегда правильным (если кратко, то при такой тарификации вендоры округляют длительность в большую сторону, а значит, за распознавание коротких записей вы заметно переплачиваете, а при большом трафике это очень дорого).

Давайте теперь разберемся, действительно ли для вендоров экономически оправданно брать деньги с хобби-проектов и небольших компаний, которым нужно распознавать не миллионы, а всего лишь десятки или сотни минут в день.

telecomgod 2 фев 2023 в 08:00

Как создать бота для своей отрасли бизнеса

4 мин

2.4K

Блог компании МТТОблачные сервисы*Голосовые интерфейсы*

Туториал

Всем привет! В прошлый раз мы начали работать с готовыми переменными, научились использовать их в сценариях и в блоках. Сегодня задача будет чуть сложнее: рассмотрим три типичных сценария, в которых будем записывать в переменные ответы абонентов. Как и обычно, любой из этих сценариев вы затем сможете легко изменить под свои задачи.

Roosh 1 фев 2023 в 11:04

Как Маруся отвечает на вопросы пользователей обо всём на свете

10 мин

8.1K

Блог компании VKМашинное обучение*Голосовые интерфейсы*

Привет, это команда ответов на вопросы Маруси. Мы все привыкли к тому, что голосовые помощники отвечают на любые вопросы. Не всегда правильно, но обычно вполне толково и с пользой. А вы когда‑нибудь задумывались, как это устроено? Сейчас расскажем на примере нашей Маруси.

Материал состоит из двух частей, это первая часть. В ней мы дадим поверхностный обзор того как устроена Маруся, локализуем место навыка «ответов на вопросы» и расскажем на концептуальном уровне, как можно решать эту задачу.

+39

snakers4 20 янв 2023 в 10:32

Обновляем сравнение систем распознавания русского языка

2 мин

5.7K

Машинное обучение*Искусственный интеллектГолосовые интерфейсы*

Аналитика

Наконец-то пришло время обновить наше исследование качества систем распознавания русского языка. Лучше поздно, чем никогда! С момента прошлого исследования утекло много воды … и мы думали, что мы не добежим до обновления, но таки добежали.

По сравнению с предыдущим исследованием изменилось следующее:

Посмотреть результаты

+15

baadzhi 18 янв 2023 в 11:15

Страх и ненависть в переговорке: курим VideoSDK API, Vosk и Python

Простой

13 мин

5.9K

Python*Программирование*API*ВидеоконференцсвязьГолосовые интерфейсы*

Кейс

Сегодня поговорим о кастомных решениях для видеоконференцсвязи (далее — ВКС) с минимальными затратами человеко-часов и финансов на их создание. ~~Я параноик~~ Брать готовый open-source – меня не устраивает, всем известны случаи встраивания bad code в проекты с открытым исходным кодом с целью нанести ущерб пользователям из России. Поэтому за основу берём что-то отечественное с корпоративным уклоном, с открытым API и подходом «без регистрации и смс».

+18

telecomgod 17 янв 2023 в 10:02

Обзор чат-бота ChatGPT: что это, возможности и примеры использования

4 мин

259K

Блог компании МТТМашинное обучение*Облачные сервисы*Голосовые интерфейсы*

Обзор

Recovery Mode

ChatGPT от OpenAI, запущенный 30 ноября 2022 года, произвел настоящий фурор в IT-сообществе, поразив многих точностью ответов на специальные вопросы. Посмотрим, как можно использовать этого чат-бота, в том числе в сочетании с другими программными продуктами.

Я заинтересовался технологией, чтобы применять её в каких-то своих рабочих задачах и изучил все возможные на сегодня способы работы с ChatGPT и попробовал представить, как это внедрить в коммуникации в бизнесе.

+12

olleelooo 21 дек 2022 в 17:06

Как и зачем тестировать голосовых и чат-ботов?

8 мин

3.3K

Блог компании Just AIИскусственный интеллектNatural Language Processing*Голосовые интерфейсы*

Туториал

Привет, Хабр! Меня зовут Оля, и я работаю QA-инженером в команде лингвистов Just AI. Для лингвистов-разработчиков каждый чат-бот — это отдельный проект со своими фичами, иногда с собственным характером и всегда — с особым подходом к тестированию. В тестировании ботов, помимо проектной специфики (a.k.a. конкретные требования и «хотелки» заказчика), которую обобщить едва ли возможно, есть еще и неочевидные вещи, связанные со спецификой самого типа бота. В этом материале я постаралась аккумулировать наш опыт запуска голосовых и текстовых ботов в продакшен (десятков ботов!) и собрать рекомендации о том, как их тестировать.

APPKODE 20 дек 2022 в 13:18

Лабиринты из линий: превращаем сложный сценарий в понятную схему на языке ДРАКОН

7 мин

4.8K

Голосовые интерфейсы*

Технотекст 2022

Сценарии для чат-ботов обычно создаются в виде блок-схем. Это удобно для проектирования — понятно, за какой репликой следует ответ и что происходит дальше. Но чтобы разобраться в схеме, команда тратит десятки часов: при больших сценариях результат выглядит крайне запутанным и похож на лабиринт. Это затягивает разработку, а её стоимость растёт. Проблем становится ещё больше, когда в схеме что-то нужно поменять.

Меня зовут Кирилл Богатов, я дизайнер разговорных продуктов в KODE. Я нашёл способ упрощать сложные схемы при помощи языка ДРАКОН. В статье расскажу о том, как я к нему пришёл, чем он так хорош и как с его помощью мы стали тратить на проектирование почти вдвое меньше времени.

telecomgod 8 дек 2022 в 08:50

Как за пару шагов персонализировать шаблонные звонки клиентам

5 мин

1.8K

Блог компании МТТРазработка систем связи*Облачные сервисы*Голосовые интерфейсы*

Туториал

Приветствую, друзья! В предыдущих статьях мы создавали простые сценарии в интерфейсе конструктора голосовых роботов Voicebox. Сегодня возьмем тему чуть посложнее и рассмотрим пару сценариев с переменными. Один из них будет имитировать работу оператора маркетплейса: бот позвонит покупателю и попросит у него подтвердить или отменить заказ. Второй сценарий будет посвящен нелегкому труду сотрудников медицинской клиники. Облегчим им этот труд: теперь напоминать пациентам о приеме у врача будет бот.

ADPopko 7 дек 2022 в 13:01

Люди и интерфейсы. Рассказ незрячего тестировщика о том, как сервисы Яндекса становятся доступнее

17 мин

7.1K

Блог компании ЯндексВеб-разработка*Интерфейсы*Accessibility*Голосовые интерфейсы*

Технотекст 2022

Привет, меня зовут Анатолий Попко. Последние 15 лет (или около того) я работаю над тем, чтобы технологии становились доступнее для пользователей с различными ограничениями. Участвовал и продолжаю участвовать в работе разных групп и организаций, которые объясняют разработчикам технологий реальные потребности людей, пишут гайды, стандарты и так далее.

Уже много лет я сотрудничаю с Яндексом, а с прошлого года мы вместе строим единые процессы улучшения доступности в сервисах. Это бесконечный путь, всегда можно сделать лучше — текущее состояние продуктов Яндекса тоже не отражает идеальную картину. Я бы хотел рассказать об этой работе и поделиться примерами, которые можно брать и реализовывать где угодно. Поговорим о мифах, о моей работе тестировщиком цифровой доступности, да и в целом о восприятии окружающего мира.

Читать дальше →

+38

Kirill-Gorelov 29 ноя 2022 в 11:49

Как организовать роботизированный сбор показаний пациентов

5 мин

869

Блог компании СберЗдоровьеОблачные сервисы*Сотовая связьIT-компанииГолосовые интерфейсы*

Я хочу поделиться с вами особенностями внедрения и работы автоматизированного обзвона роботом на примере мониторинга здоровья пациентов, еще расскажу о том, что нужно учесть при выборе провайдера звонков, анализе и мониторинге системы.

Суть работы сервиса дистанционного мониторинга заключается в получении показателей здоровья пациентов при помощи обзвона роботом или устройств, обработке информации, внесении её в электронный дневник здоровья и передаче лечащему врачу. Врач видит все данные в динамике и если замечает отклонения, то связывается с пациентом и консультирует его онлайн, рекомендует обратиться очно или вызвать врача на дом.

На нашем сервисе метрики здоровья собираются разными способами: через веб-версию, носимые устройства, звонки и приложение. Пациент сам выбирает, как ему удобнее вносить показания, но автообзвон всегда назначает врач. Сбор данных через звонок – один из наиболее удобных «продуктов» для пациентов: робот автоматически звонит в назначенные врачом дни, спрашивает о самочувствии и вносит показания в его «дневник здоровья»

Поговорим о провайдере

В нашем проекте нет своей телефонии – мы арендуем ресурсы у двух провайдеров и при необходимости можем переключать провайдера у одного или сразу нескольких пациентов.

Провайдер также должен предоставлять качественные услуги – обработка речи человека в режиме реального времени для нас крайне важна при его выборе. Система сбора и обработки должна уметь выделять существенную информацию при разговоре. Например, могут быть следующие реплики:

1 2

4 5 ...

12 13

Голосовые интерфейсы *

openHAB + Алиса = OH Cloud

Почему 90% звонков бесполезны, и как правильно применять конструктор ботов

Исторический момент: ChatGPT обрёл «суперсилу Wolfram»

Ирина, голосовой помощник — теперь и со вкусом GPT-3

Истории

Что не так с умными колонками и голосовыми ассистентами?

Как я сделал синтез своего голоса

Как мы делали AEC для воспроизведения звука через HDMI на Станции Макс

Выпускные проекты наших «бауманцев»

Что под капотом «ответов на вопросы» Маруси?

Предоставляем бесплатное облачное распознавание речи ASR

Как создать бота для своей отрасли бизнеса

Как Маруся отвечает на вопросы пользователей обо всём на свете

Обновляем сравнение систем распознавания русского языка

Ближайшие события

Страх и ненависть в переговорке: курим VideoSDK API, Vosk и Python

Обзор чат-бота ChatGPT: что это, возможности и примеры использования

Как и зачем тестировать голосовых и чат-ботов?

Лабиринты из линий: превращаем сложный сценарий в понятную схему на языке ДРАКОН

Как за пару шагов персонализировать шаблонные звонки клиентам

Люди и интерфейсы. Рассказ незрячего тестировщика о том, как сервисы Яндекса становятся доступнее

Как организовать роботизированный сбор показаний пациентов

Вклад авторов