Все потоки
Поиск
Написать публикацию
Обновить
5.88

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Многозадачные и интеллектуальные. Как мы обучали колонки Sber понимать сразу несколько команд умного дома

Время на прочтение7 мин
Количество просмотров1.6K

Салют, Хабр!

Я Иван, в SberDevices я руковожу направлением голосового управления умным домом. Сегодня выпустили большое обновление — теперь взаимодействие пользователя с Умным домом Sber через умные колонки стало проще и удобнее. Колонке можно одной репликой дать сразу несколько команд; можно управлять освещением и климатом нативными командами — сказать: «Салют, мне темно», чтобы включился свет. Ещё появилась возможность создавать сценарии с помощью GigaChat: если сказать умной колонке: «Салют, я проснулся», она предложит варианты действий с устройствами умного дома: включить свет? Открыть шторы? Когда вы подтвердили выбор, колонка сама создаст в приложении сценарий.  

Благодаря обновлению пользователю стало проще и органичнее управлять умным домом. В этой статье расскажу, как мы реализовали многозадачность в умных колонках.

Читать далее

Новости

Делаем аутентификацию без push и SMS: звонок с диктовкой кода роботом

Время на прочтение7 мин
Количество просмотров3.2K

Привет, Хабр! Я Катя Саяпина, менеджер продукта МТС Exolve. Сегодня расскажу, как сделать двухфакторную аутентификацию через звонок с применением технологии text-to-speech. Работает просто — пользователь получает код, продиктованный роботом во время голосового вызова. ​​Этот альтернативный SMS и push-уведомлениям способ доставки кода, при этом относительно простой в реализации, дешевле SMS и работает без интернета.

Я покажу, как это работает, на конкретном кейсе.

Читать далее

Новый релиз публичного детектора голоса Silero VAD v6

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров3.5K

На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут). А вот что стало лучше в этот раз:

Хочу узнать!

Есть ли жизнь без споттера? Как мы внедряли быстрые команды в умные устройства Sber

Время на прочтение6 мин
Количество просмотров1.2K

Привет, Хабр! 

Меня зовут Айрат, я руковожу командой Embedded ML в Сбере. Сегодня мы выкатили быстрые команды для умных колонок SberBoom. Они позволяют управлять самим устройством, а также телевизорами Sber, ТВ-приставками SberBox и умным домом с помощью колонки проще и быстрее.  

Сегодня я расскажу, как удалось уместить все быстрые команды всего в 6 МБ и благодаря чему наше решение распознает не только простые команды вида «Включи свет», но и сложные со множеством параметров, например, «Яркость сорок пять процентов в коридоре». Мы рассмотрим, что такое спам-команды и как мы добились их корректного распознавания без задержек.

Читать далее

Вышла 12 версия русского опенсорс голосового помощника Ирина (900+ звезд Гитхаб)

Время на прочтение8 мин
Количество просмотров27K

Всем привет! Я уже писал про своего голосового помощника Ирину статьи на Хабре: раз, два и три; первый раз был аж 3.5 года назад.

Самое главное — опенсорс проект жив. А если опенсорс жив в течение 3.5 лет — значит, он дошел до какой‑то точки зрелости. А если у него 900 звезд на Гитхабе — значит, им кто‑то пользуется, и даже успешно :)

TL;DR> Python с простой архитектурой. Работает оффлайн, полностью локально и приватно. Можно дописывать свои скиллы через плагины. Плагинов много, есть от комьюнити. Поддержка Home Assistant. Поддержка кучи TTS. Поддержка LLM по OpenAI‑совместимому API, можно сделать онлайн или оффлайн. Есть клиент‑сервер.

Читать далее

Обзор Waveshare ESP32-P4-86-Panel-ETH-2RO: новый уровень DIY-панелей в контексте ESPHome

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров10K

Недавно на просторах AliExpress появилось интересное устройство от Waveshare — ESP32-P4-86-Panel-ETH-2RO. В этой статье я поделюсь своими впечатлениями о работе данного устройства, расскажу о плюсах и минусах, рассмотрю, какие задачи может решать эта панель и что уже можно сделать с ней через ESPHome прямо сейчас.

Читать далее

Твоя колонка шпионит за тобой? Или как перестать кормить корпорации личными данными

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3K

Сегодня голосовые ассистенты умеют включать музыку, подсказывать погоду и даже шутить. Большинство таких помощников – от Siri до Alexa – работают через облако: все ваши команды отправляются на серверы корпораций. Казалось бы, это удобно: тяжелые вычисления происходят дистанционно, а нам остается лишь слушать ответ. Однако за удобством скрывается ряд проблем, о которых часто не задумываются. Давайте разберемся, почему локальный голосовой ИИ-ассистент, работающий прямо на вашем устройстве, может быть лучше и безопаснее облачного собрата.

Читать далее

Как перевести bluetooth в headset_head_unit на raspberry pi даже если последняя против

Время на прочтение3 мин
Количество просмотров1.2K

Иногда при подключении bluetooth устройства к raspberry pi данное устройство по каким-то причинам не хочет записывать аудио через bt, хотя такая возможность на самом устройстве предусмотрена. Это касается bt наушников, гарнитур, у которых имеется режим headset_head_unit.
Читать дальше →

Интерфейсы без экрана: как разговаривают голосовые ассистенты, когда никто не слышит

Время на прочтение8 мин
Количество просмотров3.3K

А что если ваш голосовой ассистент никогда не замолкает? Даже когда экран темный, а в комнате мертвая тишина, он ведет свою тайную беседу. Не с вами, а с тысячами серверов. О чем? О вас. В этой статье я предлагаю разобрать механизмы этого фонового «общения»: что именно передается в тишине и как это работает. Детали, как всегда, под катом.
Читать дальше →

От театральной импровизации до навыка для Алисы: как я сделал голосовую игру про принцесс, драконов и рыцарей

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.1K

С вами снова Кирилл Богатов, дизайнер разговорных продуктов в KODE. В прошлом году я записался на курсы по театральной импровизации. Там мы разыгрывали сценки, работали с зажимами и учились не бояться выглядеть нелепо. Наши занятия часто заканчивались игрой в «Принцессу, Дракона, Рыцаря» — это как «камень-ножницы-бумага», только вместо фигур в ней нужно изображать фэнтезийных персонажей. Своего рода мини-спектакль на пару секунд.

Концепция игры показалась мне идеальной для переноса на голосовые колонки. В этой статье расскажу о том, что из этого вышло.

Читать далее

Рекламация по телевизору BBK 50LED8259/UTS2C с YaOS

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.7K

Для корпоративного сегмента мне часто приходится приобретать телевизоры. Они используются не для демонстрации развлекательного контента (ТВ‑каналов, YouTube, онлайн‑кинотеатров), а в качестве больших информационных панелей для вывода видео‑ и аудиопотоков со сторонних источников сигнала, подключённых по HDMI. Я не углублялся в особенности установленной операционной системы (Smart TV или обычная), так как это не было важно. Мой выбор всегда основывался на качестве картинки, звука и диагонали экрана при приемлемой цене. После подключения внешнего источника HDMI пульт убирался в коробку, и система работала без нареканий. Пока я не столкнулся с YaOS. Голосовой помощник — «Алиса» быстро дала понять, кто в доме хозяин.

Читать далее

Как я запустил ИИ сервис речевой аналитики который хотели все — и понял: рынка SaaS больше нет. Полный разбор

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров11K

В этом тексте — живой кейс внедрения речевой аналитики в крупнейшей онлайн-школе EasyCode.

Как мы пытались поднять конверсию, контролируя скрипты.

Почему бинарная проверка «сказал ⁄ не сказал» не спасла продажи.

Откуда взялся феномен «вежливого тумана» — сделка ещё вежлива, но уже мертва.

Как идея тайм-лайна коммуникаций вывела нас к собственным паттернам риска и успеха.

И зачем теперь выгоднее собрать аналитику своими руками (один dev, три дня), чем покупать очередную коробку.

Читать далее

Беспрецедентный сдвиг в голосовых интерфейсах ИИ

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.6K

Вы заметили, что уже кричите на голосовых помощников, когда они вас не понимают?

Эра разочаровывающих голосовых интерфейсов заканчивается.

Узнайте, как эта технология изменит всё: от бизнес-коммуникаций до наших социальных навыков.

Это нужно послушать — спор с голосовым ИИ Sesame в реальном времени 🤯

Читать далее

Ближайшие события

Как я запускаю 15+ самых разных ИИ на своей машине — open-source, self-hosted, с HTTP-доступом

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров31K

Я написал BrainBox — local-first сервис поддержки open-source ИИ-систем для генерации изображений, распознавания объектов на снимках, озвучки, распознавания текстов, транскрибирования аудиозаписей и других целей. Эти системы запускаются за фасадом веб-сервера, который устанавливает их и затем принимает и выполняет задачи в едином для всех систем формате. Задачи можно ставить из любого языка программирования с помощью отправки веб-запросов на сервер, а для Python дополнительно разработан удобный API. Проект доступен на pypi https://pypi.org/project/kaia-brainbox/ с подробной документацией и инструкцией на английском языке. Я надеюсь, что BrainBox поможет тем, кто хочет сделать небольшой проект с использованием ИИ, но не хочет разбираться в питоне и торче, или просто не знает, с чего начать.

Читать далее

Будущее v-commerce: как использовать распознавание речи и голосовой поиск в 2025 году

Время на прочтение11 мин
Количество просмотров847

В этой статье мы рассмотрим успешные кейсы и неудачные примеры, сдерживающие развитие технологии, расскажем про тренды голосового шоппинга и особенности интеграции такого решения.

Вы узнаете:

- Что такое голосовая коммерция?
- Какую пользу она приносит бизнесу?
- Как голосовая коммерция меняет современный ритейл?
- Какие компании уже успешно внедрили голосовой поиск и распознавание речи в свои процессы, а какие решили отказаться от технологии?
- Как изменилась обработка голоса человека с развитием искусственного интеллекта?

Читать далее

Путешествия и диктофон

Время на прочтение3 мин
Количество просмотров2.3K

Я люблю путешествовать в бэкпэк формате и люблю фотографировать природу и жизнь, вот примерно так: Кавказ Осетия Ингушетия Чечня Дагестан 10_2023

И у меня есть 2 проблемы с этим.

Первая — отсутствие на рынке удобного камерофона для путешествий. Эту проблему я уже описывал в статье на Хабре.

Вторая — отсутствие удобного тулза для создания отчета по путешествию. Писать отчеты — это очень правильно, иначе по прошествии 10–15 лет коллекции фото превращаются просто в наборы красивых картинок так как фактические детали, эмоции стираются из памяти. Я сильно жалею, что частенько ленился писать отчеты.

Читать далее

Управление компьютером. Голосовое управление ПК. Arduino + voice recognition module v3.1 + EasyHID + DFPlayer

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4K

Устройство для управления компьютером при помощи голосовых команд, и получение отклика, на выполненную инструкцию, голосом Полины из новеллы «Зайчик».

Читать далее

Сексуальная окраска голоса ИИ

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.3K

Игорь Ашманов еще десять лет назад сказал, что в результате маркетинговых исследований первых роботов-пылесосов пионеры домашней робототехники буду сфокусированы на эмоциональном взаимодействии между домашним роботом и хозяином.

В его примере робот-пылесос формировал эмоциональную привязанность у молодых бабушек. В 50 лет у женщины происходит перестройка организма, и появляется потребность заботиться о внуке – маленьком беспомощном существе. И эту потребность частично закрывает робот-пылесос.

На своих семинарах я часто задаю вопрос: «Через 30 лет молодой одинокий обеспеченный мужчина придет покупать домашнего робота в магазин, где будут представлены все возможные образы роботов – от кошки до бабушки. Какой внешний вид робота будет покупать одинокий мужчина больше других?» Чаще всего слушатели отвечают, что это будут образы красивых девушек.

При этом очевидно, что пул домашних роботов не может состоять только из красивых девушек, которые общаются таким образом, чтобы влюбить в себя хозяина. Для большинства молодых мужчин красивая женщина рядом – это главное, но далеко не единственное в его жизни. Среди домашних роботов будет много мужчин, бабушек, кошечек, собачек, виртуальных персонажей. Если робот – красивая девушка – будет говорить только в эротическом голосовом режиме, хозяину он быстро надоест, и эмоциональная привязанность не сформируется. Важно чередование положительных и отрицательных эмоций в голосе. Важны эмоции уважения, восхищения, признания ценности хозяина. Важны эмоциональное сближение и дистанцирование с хозяином, в частности, за счет чередования разных голосовых режимов.

Читать далее

Делаем быстрый, качественный и доступный синтез на языках России — нужно ваше участие

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров2.8K

Привет, Хабр!

В этом году мы делаем проект Фонда Бортника по разработке модели синтеза речи языков России и СНГ. Возможно, нас на Хабре вы знаете по статьям про синтез речи, детектор голоса или через одного популярного бота для озвучки в Телеграме (на всякий не буду ссылку прикладывать).

Наша основная задача - сделать удобный, быстрый, устойчивый, качественный и нетребовательный к вычислительным ресурсам синтез на самых популярных у нас в стране и в ближайшем зарубежье языках.

По итогу проекта планируется публикация общедоступных моделей синтеза языка под свободной лицензией (MIT). Мы бы хотели покрыть как минимум 10 популярных языков. Всего популярных языков (более 100 тысяч носителей) 30+, так что, в принципе, тут есть, где разгуляться.

Поэтому ищем людей, у которых два родных языка (русский и второй родной), которые бы помогли нам с рядом вещей:

С чем?

Анатомия виртуального сотрудника: от смыслов до каналов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.5K

Привет, Хабр! Меня зовут Илья Волынкин, я технический директор МТС Exolve. Когда мы говорим про коммуникации, то обычно представляем себе двух человек, общающихся либо в чате, либо голосом. В современном мире такая схема встречается все реже: появляются разные боты, новые каналы связи, которые еще и действуют параллельно. Так возникают сложные системы для голосовых коммуникаций — омниканальные роботы. В статье я расскажу об их основных архитектурных паттернах, применении ИИ-моделей и возникновении новых и непривычных решений.

Читать далее
1
23 ...