Обновить
19.6

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

ElevenLabs открыла голосового ассистента для Shopify. Внутри MCP, WebRTC и полностью открытый стек

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров35

ElevenLabs выложила в открытый доступ проект Eleven Shopping - голосового агента, который превращает процесс выбора товаров и оформления заказа в диалог с ИИ. В основе - стек Next.js + React + TypeScript + Tailwind CSS и подключение к Shopify Storefront API через протокол MCP.

Читать далее

Новости

Мы опубликовали silero-tts v5 на русском языке

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.8K

Время пришло. Мы решили задачу омографов (пока в первой версии, но идей ещё вагон) и теперь удовольствие от публикации наших новых публичных моделей синтеза наконец-то будет полным! Более того, что следом за ними пойдут ещё кое-какие модели, но это будет сюрприз.

Итак представляем вам новый v5 релиз наших публичных моделей для синтеза речи!

Что поменялось?

Agentic AI: мечта CEO или новый источник корпоративных уязвимостей?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров467

Когда GPT впервые научился вызывать внешние API, стало понятно: нас ждет эра agentic AI. Вчера «Яндекс» представил «Алису» с AI-агентами, которые могут записать вас к врачу, заказать товар и оплатить услугу.

Удобно? Безусловно. Но что, если агент ошибется — отправит деньги не туда, запишет к не тому врачу или сольет данные партнерам? Кто несет ответственность — разработчики, компания или сама «Алиса»?

Тот же вопрос встает и перед бизнесом. В корпоративной среде agentic AI действуют уже от лица компании. Они сами ставят задачи, создают тикеты, вносят изменения в CRM и принимают решения. Это шаг к самоуправляемой организации — и новая зона риска, где ошибка модели может стоить миллионы.

Меня зовут Сергей Спиренков, я евангелист в KODE и CEO собственных проектов. В статье расскажу, где агентные системы уже приносят пользу, а где превращаются из помощников в источник уязвимостей.

Читать далее

Детский значит безопасный. О новом помощнике для детей в колонках Sber

Время на прочтение8 мин
Количество просмотров710

Салют, Хабр!

А мы кота завели. Для детей. В интеллектуальных колонках Sber появился новый помощник СберКот, который ранее обитал внутри детского банковского приложения СберKids. Умный помощник знает ответы на детские «почему» и говорит с детьми на одном языке. Он появится, если сказать колонке:

— Салют, позови СберКота!

В этой статье рассказываем, как выстроили многоуровневую систему безопасности, синтезировали голос СберКота и обучили колонку понимать особенности детской речи.

Читать далее

Ставим задачи в CRM автоматически по итогам звонков

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1K

Привет, Хабр! Автоматизация рутинных действий в CRM остаётся одной из ключевых задач для кол-центров, отделов продаж и поддержки. Менеджеры берут на себя обязательства во время звонков — «пришлю предложение», «перезвоню завтра», «уточню по доставке», — но не всегда фиксируют их в системе. В результате теряются сделки и снижается качество сервиса.

В этом материале мы покажем, как на базе звонков МТС Exolve, нейросети GigaChat и CRM Битрикс24 автоматически извлекать такие договорённости с клиентами из звонков и превращать их в задачи, создавая автоматизированный сценарий.

Читать далее

Нельзя просто так взять и заменить тысячи строк кода на промпты. Мы убедились в этом на практике

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров3.5K

Привет, Хабр!

Меня зовут Наталья Корсакова, я руководитель департамента лингвистической разработки MWS AI (входит в МТС Web Services и разрабатывает ИИ-продукты и решения как для экосистемы МТС, так и для внешнего рынка). На последнем Conversations AI в Питере на пару с Еленой Деликановой (это наш тимлид разработчиков-лингвистов) мы рассказали, как прикручивали LLM к чат-ботам МТС. Так мы надеялись улучшить лояльность клиентов (абонентов МТС), ускорить разработку и упростить поддержку громоздких диалоговых систем. По многочисленным просьбам излагаем наш опыт в тексте. 

Спойлер: оказалось, что нельзя просто так взять и заменить тысячи строк кода на промпты. То есть можно, но жизнь разработчикам это не упростит, а в некоторых случаях даже усложнит. Однако работа наша оказалась небесполезной: мы поняли, что нужен баланс между традиционной логикой бота и генеративкой, и пришли к идее гибридной архитектуры. Но обо всем по порядку. 

Хотите узнать больше — жмите сюда

Двухфакторная аутентификация с fallback-каналами и оптимизацией text-to-speech: сокращаем затраты и повышаем надежность

Время на прочтение8 мин
Количество просмотров924

Привет, Хабр! Я Катя Саяпина, менеджер продукта МТС Exolve. В прошлом посте я рассказывала, как подключить второй фактор аутентификации через звонок робота, который диктует код. А еще — как реализовать рабочее решение на Django с использованием API МТС Exolve на примере сайта бронирования.

Сегодня продолжим тему. Покажу, как это решение можно масштабировать и оптимизировать: уменьшить затраты за счет сохранения аудиокодов, повысить надежность доставки с помощью fallback-канала по SMS, автоматически подобрать голос и язык диктовки.

Читать далее

Виртуальный гаджет эпохи ИИ-революции

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров1K

Современные интерфейсы не готовы к эпохе LLM.

Мы общаемся с самыми мощными AI-моделями через интерфейсы, спроектированные для переписки с людьми. Линейный чат, где невозможно работать с отдельными элементами ответа. Бесконечные итерации с потерянным контекстом. Копипаст вместо манипуляции объектами.

APPARAT — это концепция AI-first интерфейса, где:

Данные пользователя и ответы LLM становятся интерактивными объектами с собственными свойствами

Гранулярная работа с элементами запроса и ответа вместо монолитных текстовых блоков

Геймификация не ограничивается бейджами — весь интерфейс проектируется как «гаджет внутри гаджета»

Антропоморфизм AI объясняет различия между человеком и моделью, а не имитирует человеческое поведение

Это манифест нового подхода к проектированию интерфейсов для работы с искусственным интеллектом. От принципов эргономики до объектно-ориентированного UI. От идеи до первой концепции дизайна.

Ищу единомышленников — технических специалистов и дизайнеров, готовых превратить это в работающий прототип.

Читать далее

Многозадачные и интеллектуальные. Как мы обучали колонки Sber понимать сразу несколько команд умного дома

Время на прочтение7 мин
Количество просмотров1.7K

Салют, Хабр!

Я Иван, в SberDevices я руковожу направлением голосового управления умным домом. Сегодня выпустили большое обновление — теперь взаимодействие пользователя с Умным домом Sber через умные колонки стало проще и удобнее. Колонке можно одной репликой дать сразу несколько команд; можно управлять освещением и климатом нативными командами — сказать: «Салют, мне темно», чтобы включился свет. Ещё появилась возможность создавать сценарии с помощью GigaChat: если сказать умной колонке: «Салют, я проснулся», она предложит варианты действий с устройствами умного дома: включить свет? Открыть шторы? Когда вы подтвердили выбор, колонка сама создаст в приложении сценарий.  

Благодаря обновлению пользователю стало проще и органичнее управлять умным домом. В этой статье расскажу, как мы реализовали многозадачность в умных колонках.

Читать далее

Делаем аутентификацию без push и SMS: звонок с диктовкой кода роботом

Время на прочтение7 мин
Количество просмотров3.4K

Привет, Хабр! Я Катя Саяпина, менеджер продукта МТС Exolve. Сегодня расскажу, как сделать двухфакторную аутентификацию через звонок с применением технологии text-to-speech. Работает просто — пользователь получает код, продиктованный роботом во время голосового вызова. ​​Этот альтернативный SMS и push-уведомлениям способ доставки кода, при этом относительно простой в реализации, дешевле SMS и работает без интернета.

Я покажу, как это работает, на конкретном кейсе.

Читать далее

Новый релиз публичного детектора голоса Silero VAD v6

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров3.8K

На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут). А вот что стало лучше в этот раз:

Хочу узнать!

Есть ли жизнь без споттера? Как мы внедряли быстрые команды в умные устройства Sber

Время на прочтение6 мин
Количество просмотров1.3K

Привет, Хабр! 

Меня зовут Айрат, я руковожу командой Embedded ML в Сбере. Сегодня мы выкатили быстрые команды для умных колонок SberBoom. Они позволяют управлять самим устройством, а также телевизорами Sber, ТВ-приставками SberBox и умным домом с помощью колонки проще и быстрее.  

Сегодня я расскажу, как удалось уместить все быстрые команды всего в 6 МБ и благодаря чему наше решение распознает не только простые команды вида «Включи свет», но и сложные со множеством параметров, например, «Яркость сорок пять процентов в коридоре». Мы рассмотрим, что такое спам-команды и как мы добились их корректного распознавания без задержек.

Читать далее

Вышла 12 версия русского опенсорс голосового помощника Ирина (900+ звезд Гитхаб)

Время на прочтение8 мин
Количество просмотров28K

Всем привет! Я уже писал про своего голосового помощника Ирину статьи на Хабре: раз, два и три; первый раз был аж 3.5 года назад.

Самое главное — опенсорс проект жив. А если опенсорс жив в течение 3.5 лет — значит, он дошел до какой‑то точки зрелости. А если у него 900 звезд на Гитхабе — значит, им кто‑то пользуется, и даже успешно :)

TL;DR> Python с простой архитектурой. Работает оффлайн, полностью локально и приватно. Можно дописывать свои скиллы через плагины. Плагинов много, есть от комьюнити. Поддержка Home Assistant. Поддержка кучи TTS. Поддержка LLM по OpenAI‑совместимому API, можно сделать онлайн или оффлайн. Есть клиент‑сервер.

Читать далее

Ближайшие события

Обзор Waveshare ESP32-P4-86-Panel-ETH-2RO: новый уровень DIY-панелей в контексте ESPHome

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров10K

Недавно на просторах AliExpress появилось интересное устройство от Waveshare — ESP32-P4-86-Panel-ETH-2RO. В этой статье я поделюсь своими впечатлениями о работе данного устройства, расскажу о плюсах и минусах, рассмотрю, какие задачи может решать эта панель и что уже можно сделать с ней через ESPHome прямо сейчас.

Читать далее

Твоя колонка шпионит за тобой? Или как перестать кормить корпорации личными данными

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3K

Сегодня голосовые ассистенты умеют включать музыку, подсказывать погоду и даже шутить. Большинство таких помощников – от Siri до Alexa – работают через облако: все ваши команды отправляются на серверы корпораций. Казалось бы, это удобно: тяжелые вычисления происходят дистанционно, а нам остается лишь слушать ответ. Однако за удобством скрывается ряд проблем, о которых часто не задумываются. Давайте разберемся, почему локальный голосовой ИИ-ассистент, работающий прямо на вашем устройстве, может быть лучше и безопаснее облачного собрата.

Читать далее

Как перевести bluetooth в headset_head_unit на raspberry pi даже если последняя против

Время на прочтение3 мин
Количество просмотров1.3K

Иногда при подключении bluetooth устройства к raspberry pi данное устройство по каким-то причинам не хочет записывать аудио через bt, хотя такая возможность на самом устройстве предусмотрена. Это касается bt наушников, гарнитур, у которых имеется режим headset_head_unit.
Читать дальше →

Интерфейсы без экрана: как разговаривают голосовые ассистенты, когда никто не слышит

Время на прочтение8 мин
Количество просмотров3.4K

А что если ваш голосовой ассистент никогда не замолкает? Даже когда экран темный, а в комнате мертвая тишина, он ведет свою тайную беседу. Не с вами, а с тысячами серверов. О чем? О вас. В этой статье я предлагаю разобрать механизмы этого фонового «общения»: что именно передается в тишине и как это работает. Детали, как всегда, под катом.
Читать дальше →

От театральной импровизации до навыка для Алисы: как я сделал голосовую игру про принцесс, драконов и рыцарей

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.1K

С вами снова Кирилл Богатов, дизайнер разговорных продуктов в KODE. В прошлом году я записался на курсы по театральной импровизации. Там мы разыгрывали сценки, работали с зажимами и учились не бояться выглядеть нелепо. Наши занятия часто заканчивались игрой в «Принцессу, Дракона, Рыцаря» — это как «камень-ножницы-бумага», только вместо фигур в ней нужно изображать фэнтезийных персонажей. Своего рода мини-спектакль на пару секунд.

Концепция игры показалась мне идеальной для переноса на голосовые колонки. В этой статье расскажу о том, что из этого вышло.

Читать далее

Рекламация по телевизору BBK 50LED8259/UTS2C с YaOS

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.7K

Для корпоративного сегмента мне часто приходится приобретать телевизоры. Они используются не для демонстрации развлекательного контента (ТВ‑каналов, YouTube, онлайн‑кинотеатров), а в качестве больших информационных панелей для вывода видео‑ и аудиопотоков со сторонних источников сигнала, подключённых по HDMI. Я не углублялся в особенности установленной операционной системы (Smart TV или обычная), так как это не было важно. Мой выбор всегда основывался на качестве картинки, звука и диагонали экрана при приемлемой цене. После подключения внешнего источника HDMI пульт убирался в коробку, и система работала без нареканий. Пока я не столкнулся с YaOS. Голосовой помощник — «Алиса» быстро дала понять, кто в доме хозяин.

Читать далее

Как я запустил ИИ сервис речевой аналитики который хотели все — и понял: рынка SaaS больше нет. Полный разбор

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров12K

В этом тексте — живой кейс внедрения речевой аналитики в крупнейшей онлайн-школе EasyCode.

Как мы пытались поднять конверсию, контролируя скрипты.

Почему бинарная проверка «сказал ⁄ не сказал» не спасла продажи.

Откуда взялся феномен «вежливого тумана» — сделка ещё вежлива, но уже мертва.

Как идея тайм-лайна коммуникаций вывела нас к собственным паттернам риска и успеха.

И зачем теперь выгоднее собрать аналитику своими руками (один dev, три дня), чем покупать очередную коробку.

Читать далее
1
23 ...