Как стать автором
Обновить
10.36

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Как перевести bluetooth в headset_head_unit на raspberry pi даже если последняя против

Время на прочтение3 мин
Количество просмотров1K

Иногда при подключении bluetooth устройства к raspberry pi данное устройство по каким-то причинам не хочет записывать аудио через bt, хотя такая возможность на самом устройстве предусмотрена. Это касается bt наушников, гарнитур, у которых имеется режим headset_head_unit.
Читать дальше →

Новости

Интерфейсы без экрана: как разговаривают голосовые ассистенты, когда никто не слышит

Время на прочтение8 мин
Количество просмотров2.8K

А что если ваш голосовой ассистент никогда не замолкает? Даже когда экран темный, а в комнате мертвая тишина, он ведет свою тайную беседу. Не с вами, а с тысячами серверов. О чем? О вас. В этой статье я предлагаю разобрать механизмы этого фонового «общения»: что именно передается в тишине и как это работает. Детали, как всегда, под катом.
Читать дальше →

# ИИ в недвижимости: визуал, эмоции, продажи — без ожиданий и барьеров

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров313

Современный рынок недвижимости уходит от продаж "площади по цене за метр". Сегодня побеждают эмоции, атмосфера, ощущение “своего места”. Искусственный интеллект уже меняет способы презентации объектов: визуальные подборки по картинке, голосовые консультации 24/7, генерация 3D-контента за часы, персонализация витрины “на лету”. В статье — практический обзор, как ИИ помогает ускорить маркетинг, повысить конверсию и сделать клиентский путь в недвижимости более плавным и эффективным.

Читать далее

От театральной импровизации до навыка для Алисы: как я сделал голосовую игру про принцесс, драконов и рыцарей

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1K

С вами снова Кирилл Богатов, дизайнер разговорных продуктов в KODE. В прошлом году я записался на курсы по театральной импровизации. Там мы разыгрывали сценки, работали с зажимами и учились не бояться выглядеть нелепо. Наши занятия часто заканчивались игрой в «Принцессу, Дракона, Рыцаря» — это как «камень-ножницы-бумага», только вместо фигур в ней нужно изображать фэнтезийных персонажей. Своего рода мини-спектакль на пару секунд.

Концепция игры показалась мне идеальной для переноса на голосовые колонки. В этой статье расскажу о том, что из этого вышло.

Читать далее

Рекламация по телевизору BBK 50LED8259/UTS2C с YaOS

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.6K

Для корпоративного сегмента мне часто приходится приобретать телевизоры. Они используются не для демонстрации развлекательного контента (ТВ‑каналов, YouTube, онлайн‑кинотеатров), а в качестве больших информационных панелей для вывода видео‑ и аудиопотоков со сторонних источников сигнала, подключённых по HDMI. Я не углублялся в особенности установленной операционной системы (Smart TV или обычная), так как это не было важно. Мой выбор всегда основывался на качестве картинки, звука и диагонали экрана при приемлемой цене. После подключения внешнего источника HDMI пульт убирался в коробку, и система работала без нареканий. Пока я не столкнулся с YaOS. Голосовой помощник — «Алиса» быстро дала понять, кто в доме хозяин.

Читать далее

Как я запустил ИИ сервис речевой аналитики который хотели все — и понял: рынка SaaS больше нет. Полный разбор

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров11K

В этом тексте — живой кейс внедрения речевой аналитики в крупнейшей онлайн-школе EasyCode.

Как мы пытались поднять конверсию, контролируя скрипты.

Почему бинарная проверка «сказал ⁄ не сказал» не спасла продажи.

Откуда взялся феномен «вежливого тумана» — сделка ещё вежлива, но уже мертва.

Как идея тайм-лайна коммуникаций вывела нас к собственным паттернам риска и успеха.

И зачем теперь выгоднее собрать аналитику своими руками (один dev, три дня), чем покупать очередную коробку.

Читать далее

Беспрецедентный сдвиг в голосовых интерфейсах ИИ

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.5K

Вы заметили, что уже кричите на голосовых помощников, когда они вас не понимают?

Эра разочаровывающих голосовых интерфейсов заканчивается.

Узнайте, как эта технология изменит всё: от бизнес-коммуникаций до наших социальных навыков.

Это нужно послушать — спор с голосовым ИИ Sesame в реальном времени 🤯

Читать далее

Как я запускаю 15+ самых разных ИИ на своей машине — open-source, self-hosted, с HTTP-доступом

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров28K

Я написал BrainBox — local-first сервис поддержки open-source ИИ-систем для генерации изображений, распознавания объектов на снимках, озвучки, распознавания текстов, транскрибирования аудиозаписей и других целей. Эти системы запускаются за фасадом веб-сервера, который устанавливает их и затем принимает и выполняет задачи в едином для всех систем формате. Задачи можно ставить из любого языка программирования с помощью отправки веб-запросов на сервер, а для Python дополнительно разработан удобный API. Проект доступен на pypi https://pypi.org/project/kaia-brainbox/ с подробной документацией и инструкцией на английском языке. Я надеюсь, что BrainBox поможет тем, кто хочет сделать небольшой проект с использованием ИИ, но не хочет разбираться в питоне и торче, или просто не знает, с чего начать.

Читать далее

Будущее v-commerce: как использовать распознавание речи и голосовой поиск в 2025 году

Время на прочтение11 мин
Количество просмотров717

В этой статье мы рассмотрим успешные кейсы и неудачные примеры, сдерживающие развитие технологии, расскажем про тренды голосового шоппинга и особенности интеграции такого решения.

Вы узнаете:

- Что такое голосовая коммерция?
- Какую пользу она приносит бизнесу?
- Как голосовая коммерция меняет современный ритейл?
- Какие компании уже успешно внедрили голосовой поиск и распознавание речи в свои процессы, а какие решили отказаться от технологии?
- Как изменилась обработка голоса человека с развитием искусственного интеллекта?

Читать далее

Путешествия и диктофон

Время на прочтение3 мин
Количество просмотров2.3K

Я люблю путешествовать в бэкпэк формате и люблю фотографировать природу и жизнь, вот примерно так: Кавказ Осетия Ингушетия Чечня Дагестан 10_2023

И у меня есть 2 проблемы с этим.

Первая — отсутствие на рынке удобного камерофона для путешествий. Эту проблему я уже описывал в статье на Хабре.

Вторая — отсутствие удобного тулза для создания отчета по путешествию. Писать отчеты — это очень правильно, иначе по прошествии 10–15 лет коллекции фото превращаются просто в наборы красивых картинок так как фактические детали, эмоции стираются из памяти. Я сильно жалею, что частенько ленился писать отчеты.

Читать далее

Управление компьютером. Голосовое управление ПК. Arduino + voice recognition module v3.1 + EasyHID + DFPlayer

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.8K

Устройство для управления компьютером при помощи голосовых команд, и получение отклика, на выполненную инструкцию, голосом Полины из новеллы «Зайчик».

Читать далее

Сексуальная окраска голоса ИИ

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.3K

Игорь Ашманов еще десять лет назад сказал, что в результате маркетинговых исследований первых роботов-пылесосов пионеры домашней робототехники буду сфокусированы на эмоциональном взаимодействии между домашним роботом и хозяином.

В его примере робот-пылесос формировал эмоциональную привязанность у молодых бабушек. В 50 лет у женщины происходит перестройка организма, и появляется потребность заботиться о внуке – маленьком беспомощном существе. И эту потребность частично закрывает робот-пылесос.

На своих семинарах я часто задаю вопрос: «Через 30 лет молодой одинокий обеспеченный мужчина придет покупать домашнего робота в магазин, где будут представлены все возможные образы роботов – от кошки до бабушки. Какой внешний вид робота будет покупать одинокий мужчина больше других?» Чаще всего слушатели отвечают, что это будут образы красивых девушек.

При этом очевидно, что пул домашних роботов не может состоять только из красивых девушек, которые общаются таким образом, чтобы влюбить в себя хозяина. Для большинства молодых мужчин красивая женщина рядом – это главное, но далеко не единственное в его жизни. Среди домашних роботов будет много мужчин, бабушек, кошечек, собачек, виртуальных персонажей. Если робот – красивая девушка – будет говорить только в эротическом голосовом режиме, хозяину он быстро надоест, и эмоциональная привязанность не сформируется. Важно чередование положительных и отрицательных эмоций в голосе. Важны эмоции уважения, восхищения, признания ценности хозяина. Важны эмоциональное сближение и дистанцирование с хозяином, в частности, за счет чередования разных голосовых режимов.

Читать далее

Делаем быстрый, качественный и доступный синтез на языках России — нужно ваше участие

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров2.6K

Привет, Хабр!

В этом году мы делаем проект Фонда Бортника по разработке модели синтеза речи языков России и СНГ. Возможно, нас на Хабре вы знаете по статьям про синтез речи, детектор голоса или через одного популярного бота для озвучки в Телеграме (на всякий не буду ссылку прикладывать).

Наша основная задача - сделать удобный, быстрый, устойчивый, качественный и нетребовательный к вычислительным ресурсам синтез на самых популярных у нас в стране и в ближайшем зарубежье языках.

По итогу проекта планируется публикация общедоступных моделей синтеза языка под свободной лицензией (MIT). Мы бы хотели покрыть как минимум 10 популярных языков. Всего популярных языков (более 100 тысяч носителей) 30+, так что, в принципе, тут есть, где разгуляться.

Поэтому ищем людей, у которых два родных языка (русский и второй родной), которые бы помогли нам с рядом вещей:

С чем?

Ближайшие события

Анатомия виртуального сотрудника: от смыслов до каналов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.5K

Привет, Хабр! Меня зовут Илья Волынкин, я технический директор МТС Exolve. Когда мы говорим про коммуникации, то обычно представляем себе двух человек, общающихся либо в чате, либо голосом. В современном мире такая схема встречается все реже: появляются разные боты, новые каналы связи, которые еще и действуют параллельно. Так возникают сложные системы для голосовых коммуникаций — омниканальные роботы. В статье я расскажу об их основных архитектурных паттернах, применении ИИ-моделей и возникновении новых и непривычных решений.

Читать далее

Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

Время на прочтение41 мин
Количество просмотров7.5K

Так уж вышло, что раз в несколько лет мы переписываем сервис, отвечающий за диалоговое взаимодействие в Алисе. В прошлый раз мы распиливали монолит на микросервисы, переходили от концепции интента к концепции сценария и улучшали качество классификации. Этот рефакторинг позволил нам научиться горизонтально масштабироваться, ускорил выпуск фичей и дал возможность существенно улучшить качество работы диалогового движка. На этой инфраструктуре мы жили 5 лет.

Совсем недавно мы начали новый виток развития Алисы: мы хотим поместить в самое сердце (точнее, в самый мозг) нашего диалогового движка большую языковую модель. В этом году мы уже добавили в Алису возможность отвечать с помощью LLM на любые вопросы, а теперь взялись за то, чтобы Алиса стала более универсальной и могла выполнять любые задачи пользователя.

Например, пользователь может сказать: «Алиса, выключи телевизор, когда закончится этот матч». До появления смарт‑функций Алиса ответила бы, что «этого пока не умеет», так как подобной задаче её не обучали. Теперь нейросеть сама разложит запрос на два действия — посмотрит, сколько осталось до конца, и поставит таймер выключения на это время. Или если в запросе будут разного типа задачи, например одна про контент, а другая — про звук, Алиса тоже разложит их на понятные для нее части и выполнит: «Алиса, включи первый фильм на громкости 20».

Дальше я расскажу, как мы это собираемся делать.

Читать далее

Голосовой ассистент на python

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров8K

Всем привет, я программист-любитель, изучающий язык python уже многие годы.

Не буду долго тянуть с приветствием и сразу перейду к делу. Этот гайд является по сути пошаговой инструкцией для создания базового кода голосового ассистента, который можно будет потом расширять и дополнять.

Читать

«Я — робот Вертер» или Нулевой закон робототехники

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров11K


В этой статье речь пойдёт не об Азимове и его законах. Великий фантаст не мог предусмотреть всё. А о порочной практике, когда текстовые и голосовые роботы представляются человеческими именами. Или вообще не представляются. Разработчики и собственники таких роботов рассчитывают на то, что люди, собеседники роботов, будут введены в заблуждение, что говорят с человеком. Это даёт небольшой шанс владельцу робота что-то продать или предложить потребителям, сэкономив деньги на зарплате сотруднику колл-центра.

Разберём подробно, как правильно должны представляться роботы и почему это важно.

А также обсудим пути к созданию цивилизованной среды, в которой взаимодействие с роботами будет приносить больше пользы.
Почему же роботы ВСЕГДА должны говорить о том, что они роботы?

Как научить голосовой помощник Алиса рассказывать отзывы выпускников Яндекс Практикума

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.1K

Меня зовут Екатерина Александрова, я интернет‑маркетолог, выпускница курса «Интернет‑маркетолог» и «SMM‑продвижение в Телеграмм», и Станислав Козырев — ведущий инженер‑программист, дата‑аналитик и саентист ЦУНБ им. Некрасова, выпускник курса «Специалист по Data Science».

Наша команда «Проактивные практики», состоящая из пяти увлеченных и энергичных участников, проходит обучение в амбассадорской программе Яндекса. Заключительным этапом программы стала выпускная работа.

Читать далее

Сравнение систем распознавания русского языка 2024

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров5.1K

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

Какая?

Эволюция чат-ботов в Бизнесе: от теории к практике

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.4K

Изначально чат-боты напоминали обычные автоответчики. Бизнес рассматривал их лишь для замены рутинных операций по перенаправлению пользователя с одного оператора на другого.

Первый прорыв случился с распространением в Телеграм «кнопочного интерфейса ботов», который «де-факто» стал стандартом в области текстовых ботов.

Вторым прорывом можно считать распространение систем преобразования голоса в текст (speech to text), благодаря которым появилась возможность взаимодействовать с системами с помощью голосовых команд.

Третий прорыв возник в области искусственного интеллекта (ИИ), боты стали «человечнее» и взаимодействие с ними перешло из разряда «робот» в разряд «помощник».

Читать далее
1
23 ...