Обновить
42.46

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Как я Альфе новый навык делал и что из этого вышло

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели5.1K

Привет, Хабр!

Время от времени я возвращаюсь к своему pet-проекту голосового ассистента с кодовым именем «Альфа», который разрабатывался как приватный голосовой интерфейс (а-ля «умная колонка») для управления своим «Умным домом». И в этот раз — так сошлись звезды или под влиянием магнитных бурь — мне очень захотелось добавить новый навык. А что из этого вышло, читайте далее.

Читать далее

Новости

Нейросеть на смене, или как мы избавили супервайзеров от ручной прослушки и автоматизировали контроль качества звонков

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели4.5K

Мы построили систему речевой аналитики на базе искусственного интеллекта. Она распознаёт речь, выделяет проблемные диалоги и автоматически оценивает качество звонков. Рассказываю, как мы выстраивали пайплайн распознавания и анализа речи, боролись с искажениями моделей и добивались того, чтобы ИИ понимал разговорную речь не хуже человека.

Читать далее

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели14K

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим:

Модель поддерживает SSML;

Модель стала быстрее ещё на 20-25% (она и так была супер быстрой);

С живыми дикторами были подписаны договоры на запись их голоса;

Запись велась в максимально высоком из практически доступного качестве;

Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress;

К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели;

Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

Читать далее

Голосовой ввод для Windows через Vosk своими руками

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели11K

Я пытался найти в Windows похожий встроенный инструмент или готовое решение, но все они либо брали на себя слишком много неактуального для меня функционала, так как задумывались для людей с ограниченными возможностями, либо были платными, либо были недоступны для русского языка.

Лучшим выходом из моей ситуации было создать свое минималистичное решение, и вот как это было:

Читать далее

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели11K

Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла версия v1.2, в которую вошло следующее:

Что вошло?

AI Journey 2025: Как первый день конференции изменил представление о будущем российского ИИ

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6.4K

Вчера, 19 ноября в Москве стартовала юбилейная конференция AI Journey, и первый день оказался настолько насыщенным прорывными анонсами, что потребуется не одна статья для их осмысления. От президентских поручений до танцующего робота - разбираемся, что произошло и почему это важно.

Читать далее

Что такое платформа оркестрации Voice AI

Время на прочтение6 мин
Охват и читатели5.1K

Платформа оркестрации голосового ИИ (VAIOP, Voice AI Orchestration Platform) — важнейший управляющий уровень для создания голосовых ИИ агентов и их подключения к коммуникационным системам. Такие платформы дают возможность управлять выбором больших языковых моделей (они же LLM) и систем для обработки и синтеза речи, координируют обработку реплик (VAD и turn-taking), управляют аудио потоками, обрабатывают вызовы внешних функций, обеспечивают соблюдение требований к инфраструктуре, в итоге позволяя внедрять надёжные масштабируемые решения для голосовых агентов в реальном бизнесе.

Читать далее

Без интернета и шпионов: как мы собрали локального голосового ассистента

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели13K

Облачные ассистенты вроде Алисы, Google Assistant и Siri давно стали привычными. Но у всех у них одни и те же слабые места: зависимость от быстрого интернета и риск утечки данных. И речь не только о персональной информации — дома нередко обсуждают темы, которые можно отнести к коммерческой или даже военной тайне. Неудивительно, что многим некомфортно говорить в присутствии микрофона, который каждое слово отправляет куда-то «в облако» (один из наших заказчиков прямо сказал: «никаких Алис в доме не будет»).

На Хабре уже появлялись статьи про попытки заменить Алису на полностью локальные решения. Но почти всегда все сводилось к стандартной схеме: ESP32-микрофон → Home Assistant → intent recognition. Такая связка работает, но до действительно «умного» ассистента ей далеко.

Мы пошли дальше и собрали свой голосовой ассистент, о котором расскажем в статье.

Читать далее

ElevenLabs открыла голосового ассистента для Shopify. Внутри MCP, WebRTC и полностью открытый стек

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели4.5K

ElevenLabs выложила в открытый доступ проект Eleven Shopping - голосового агента, который превращает процесс выбора товаров и оформления заказа в диалог с ИИ. В основе - стек Next.js + React + TypeScript + Tailwind CSS и подключение к Shopify Storefront API через протокол MCP.

Читать далее

Мы опубликовали silero-tts v5 на русском языке

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели12K

Время пришло. Мы решили задачу омографов (пока в первой версии, но идей ещё вагон) и теперь удовольствие от публикации наших новых публичных моделей синтеза наконец-то будет полным! Более того, что следом за ними пойдут ещё кое-какие модели, но это будет сюрприз.

Итак представляем вам новый v5 релиз наших публичных моделей для синтеза речи!

Что поменялось?

Agentic AI: мечта CEO или новый источник корпоративных уязвимостей?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели5.5K

Когда GPT впервые научился вызывать внешние API, стало понятно: нас ждет эра agentic AI. Вчера «Яндекс» представил «Алису» с AI-агентами, которые могут записать вас к врачу, заказать товар и оплатить услугу.

Удобно? Безусловно. Но что, если агент ошибется — отправит деньги не туда, запишет к не тому врачу или сольет данные партнерам? Кто несет ответственность — разработчики, компания или сама «Алиса»?

Тот же вопрос встает и перед бизнесом. В корпоративной среде agentic AI действуют уже от лица компании. Они сами ставят задачи, создают тикеты, вносят изменения в CRM и принимают решения. Это шаг к самоуправляемой организации — и новая зона риска, где ошибка модели может стоить миллионы.

Меня зовут Сергей Спиренков, я евангелист в KODE и CEO собственных проектов. В статье расскажу, где агентные системы уже приносят пользу, а где превращаются из помощников в источник уязвимостей.

Читать далее

Детский значит безопасный. О новом помощнике для детей в колонках Sber

Время на прочтение8 мин
Охват и читатели6.3K

Салют, Хабр!

А мы кота завели. Для детей. В интеллектуальных колонках Sber появился новый помощник СберКот, который ранее обитал внутри детского банковского приложения СберKids. Умный помощник знает ответы на детские «почему» и говорит с детьми на одном языке. Он появится, если сказать колонке:

— Салют, позови СберКота!

В этой статье рассказываем, как выстроили многоуровневую систему безопасности, синтезировали голос СберКота и обучили колонку понимать особенности детской речи.

Читать далее

Ставим задачи в CRM автоматически по итогам звонков

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.9K

Привет, Хабр! Автоматизация рутинных действий в CRM остаётся одной из ключевых задач для кол-центров, отделов продаж и поддержки. Менеджеры берут на себя обязательства во время звонков — «пришлю предложение», «перезвоню завтра», «уточню по доставке», — но не всегда фиксируют их в системе. В результате теряются сделки и снижается качество сервиса.

В этом материале мы покажем, как на базе звонков МТС Exolve, нейросети GigaChat и CRM Битрикс24 автоматически извлекать такие договорённости с клиентами из звонков и превращать их в задачи, создавая автоматизированный сценарий.

Читать далее

Ближайшие события

Нельзя просто так взять и заменить тысячи строк кода на промпты. Мы убедились в этом на практике

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели6K

Привет, Хабр!

Меня зовут Наталья Корсакова, я руководитель департамента лингвистической разработки MWS AI (входит в МТС Web Services и разрабатывает ИИ-продукты и решения как для экосистемы МТС, так и для внешнего рынка). На последнем Conversations AI в Питере на пару с Еленой Деликановой (это наш тимлид разработчиков-лингвистов) мы рассказали, как прикручивали LLM к чат-ботам МТС. Так мы надеялись улучшить лояльность клиентов (абонентов МТС), ускорить разработку и упростить поддержку громоздких диалоговых систем. По многочисленным просьбам излагаем наш опыт в тексте. 

Спойлер: оказалось, что нельзя просто так взять и заменить тысячи строк кода на промпты. То есть можно, но жизнь разработчикам это не упростит, а в некоторых случаях даже усложнит. Однако работа наша оказалась небесполезной: мы поняли, что нужен баланс между традиционной логикой бота и генеративкой, и пришли к идее гибридной архитектуры. Но обо всем по порядку. 

Хотите узнать больше — жмите сюда

Двухфакторная аутентификация с fallback-каналами и оптимизацией text-to-speech: сокращаем затраты и повышаем надежность

Время на прочтение8 мин
Охват и читатели5.9K

Привет, Хабр! Я Катя Саяпина, менеджер продукта МТС Exolve. В прошлом посте я рассказывала, как подключить второй фактор аутентификации через звонок робота, который диктует код. А еще — как реализовать рабочее решение на Django с использованием API МТС Exolve на примере сайта бронирования.

Сегодня продолжим тему. Покажу, как это решение можно масштабировать и оптимизировать: уменьшить затраты за счет сохранения аудиокодов, повысить надежность доставки с помощью fallback-канала по SMS, автоматически подобрать голос и язык диктовки.

Читать далее

Виртуальный гаджет эпохи ИИ-революции

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели4.8K

Современные интерфейсы не готовы к эпохе LLM.

Мы общаемся с самыми мощными AI-моделями через интерфейсы, спроектированные для переписки с людьми. Линейный чат, где невозможно работать с отдельными элементами ответа. Бесконечные итерации с потерянным контекстом. Копипаст вместо манипуляции объектами.

APPARAT — это концепция AI-first интерфейса, где:

Данные пользователя и ответы LLM становятся интерактивными объектами с собственными свойствами

Гранулярная работа с элементами запроса и ответа вместо монолитных текстовых блоков

Геймификация не ограничивается бейджами — весь интерфейс проектируется как «гаджет внутри гаджета»

Антропоморфизм AI объясняет различия между человеком и моделью, а не имитирует человеческое поведение

Это манифест нового подхода к проектированию интерфейсов для работы с искусственным интеллектом. От принципов эргономики до объектно-ориентированного UI. От идеи до первой концепции дизайна.

Ищу единомышленников — технических специалистов и дизайнеров, готовых превратить это в работающий прототип.

Читать далее

Многозадачные и интеллектуальные. Как мы обучали колонки Sber понимать сразу несколько команд умного дома

Время на прочтение7 мин
Охват и читатели6K

Салют, Хабр!

Я Иван, в SberDevices я руковожу направлением голосового управления умным домом. Сегодня выпустили большое обновление — теперь взаимодействие пользователя с Умным домом Sber через умные колонки стало проще и удобнее. Колонке можно одной репликой дать сразу несколько команд; можно управлять освещением и климатом нативными командами — сказать: «Салют, мне темно», чтобы включился свет. Ещё появилась возможность создавать сценарии с помощью GigaChat: если сказать умной колонке: «Салют, я проснулся», она предложит варианты действий с устройствами умного дома: включить свет? Открыть шторы? Когда вы подтвердили выбор, колонка сама создаст в приложении сценарий.  

Благодаря обновлению пользователю стало проще и органичнее управлять умным домом. В этой статье расскажу, как мы реализовали многозадачность в умных колонках.

Читать далее

Делаем аутентификацию без push и SMS: звонок с диктовкой кода роботом

Время на прочтение7 мин
Охват и читатели6.4K

Привет, Хабр! Я Катя Саяпина, менеджер продукта МТС Exolve. Сегодня расскажу, как сделать двухфакторную аутентификацию через звонок с применением технологии text-to-speech. Работает просто — пользователь получает код, продиктованный роботом во время голосового вызова. ​​Этот альтернативный SMS и push-уведомлениям способ доставки кода, при этом относительно простой в реализации, дешевле SMS и работает без интернета.

Я покажу, как это работает, на конкретном кейсе.

Читать далее

Новый релиз публичного детектора голоса Silero VAD v6

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели8.4K

На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут). А вот что стало лучше в этот раз:

Хочу узнать!

Есть ли жизнь без споттера? Как мы внедряли быстрые команды в умные устройства Sber

Время на прочтение6 мин
Охват и читатели5.5K

Привет, Хабр! 

Меня зовут Айрат, я руковожу командой Embedded ML в Сбере. Сегодня мы выкатили быстрые команды для умных колонок SberBoom. Они позволяют управлять самим устройством, а также телевизорами Sber, ТВ-приставками SberBox и умным домом с помощью колонки проще и быстрее.  

Сегодня я расскажу, как удалось уместить все быстрые команды всего в 6 МБ и благодаря чему наше решение распознает не только простые команды вида «Включи свет», но и сложные со множеством параметров, например, «Яркость сорок пять процентов в коридоре». Мы рассмотрим, что такое спам-команды и как мы добились их корректного распознавания без задержек.

Читать далее
1
23 ...