Обновить
8.23

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Для чего нужен Умный дом и почему я разработала свое устройство

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели6.9K

Для чего нужен Умный дом и почему я разработала свое устройство

История о разработке устройства умного дома без опыта, с минимальными ресурсами и максимальными приключениями в течение 6 лет. МУЗА — одно простое устройство для управления всеми основными функциями Умного дома, умная колонка с Алисой, датчиками и камерой в одном корпусе.

Читать далее

Новости

Голосовое управление на складе: как мы внедряем Voice Picking и что из этого получается

Уровень сложностиПростой
Время на прочтение20 мин
Охват и читатели7.1K

Меня зовут Александр, я руковожу отделом внедрения в INTEKEY. Мы — системные интеграторы в логистике. Это значит, что мы помогаем складам автоматизировать процессы комплексно: от анализа задач и выбора технологий до внедрения, обучения и поддержки.

В этой статье я хочу поделиться нашим опытом работы с голосовым управлением (VoicePicking/Pick-by-Voice*) на складах. Нашим партнером в этом направлении выступает компания Айвойс с платформой GOLAS. Мы начали работать с этой технологией несколько лет назад, и за это время внедрили ее на разных объектах.

Я расскажу, как это работает на практике, с какими техническими и организационными нюансами мы сталкивались и на что стоит обратить внимание, если вы рассматриваете такую возможность для своего склада.

*Voice Picking (голосовой отбор, Pick-by-Voice) — это технология автоматизации складских процессов, при которой сотрудники получают задания и подтверждают их выполнение с помощью голосовых команд через гарнитуру. Это полностью безбумажный и hands-free метод работы, который интегрируется со складской системой управления (WMS) для обмена данными в реальном времени.

Читать далее

Как в звонках автоматически находить первые признаки выгорания операторов кол-центра

Время на прочтение10 мин
Охват и читатели5.7K

Привет, Хабр!

Выгорание операторов — распространенная проблема в кол-центрах. По разным оценкам, текучесть персонала здесь достигает 40–45%, а средний срок работы составляет 8–12 месяцев. Это приводит к дополнительным расходам на обучение, росту нагрузки на команду и снижению качества сервиса. При этом заметные изменения в поведении сотрудников обычно фиксируются слишком поздно — когда проблема уже стала системной.

Я Катя Саяпина, менеджер продукта МТС Exolve. В этом материале разберу способ раннего обнаружения таких изменений. Он опирается на статистические отклонения в поведении оператора и дополняет прямое общение с сотрудниками и сбор обратной связи в команде. Мы создадим на Python сервис, который объединит Telegram-бота, API МТС Exolve и LLM, развернутую на платформе MWS GPT.

Читать далее

Автоматизация приема заказов по телефону. Личный опыт и реальные результаты

Время на прочтение8 мин
Охват и читатели4.8K

Каждый день миллионы клиентов звонят в компании по телефону - и каждый такой звонок обходится бизнесу в деньги, время и репутацию. Операторы выгорают от монотонных разговоров, клиенты бросают трубку после долгого ожидания, а бизнес теряет прибыль на рутине, которую давно пора автоматизировать.

Я уже несколько лет занимаюсь разработкой и внедрением голосовых ботов для приема заказов по телефону - не в теории, а для реальных компаний, с реальными клиентами и реальными заказами.

В этой статье я поделюсь конкретными кейсами, которые помогут владельцам и руководителям бизнеса понять:

Какую реальную пользу приносит автоматизация (и почему это не просто модное слово).

С какими трудностями сталкивались на практике - и как их преодолевали.

Каких результатов удалось достичь - в реальных цифрах, фактах и отзывах.

Читать далее

Multi-API Ensemble: 95% точности транскрипции региональных топонимов

Уровень сложностиСредний
Время на прочтение28 мин
Охват и читатели7.4K

В статье полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.

Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд.

Читать далее

xAI провела 24-часовой хакатон: как инженеры использовали Grok в играх, рекрутинге и кибербезопасности

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.8K

Компания xAI представила результаты 24-часового внутреннего хакатона, на котором команда разработчиков создавала прототипы на базе Grok - AI-модели, тесно интегрированной с платформой X. Формат был простым: сутки непрерывной работы и полная свобода экспериментировать с агентами, обработкой данных и интеграциями. Но именно эта «сжатость» хорошо показала, как быстро Grok превращается в инструмент для прикладных задач, а не просто чат-модель.

Читать далее

Разбираемся, что слышит умная колонка. О нелинейных искажениях и метрике FRR

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели8.5K

Салют, Хабр!  

Меня зовут Александр. Я DSP-инженер, то есть специалист по цифровой обработке сигналов, и в SberDevices занимаюсь VQE — Voice Quality Enhancement, блоком улучшения качества звука. Мы разработали методику, которая позволяет прогнозировать качество распознавания голоса (так называемую метрику FRR) по объективным показателям работы эхоподавления, а измерения и оценку параметров стандартизировали. Благодаря этому методику можно использовать для любых устройств без сложного дополнительного оборудования. Сегодня расскажу о ней.

Читать далее

Разрабатываем голосового ассистента на Rockchip. Часть 1

Уровень сложностиСредний
Время на прочтение19 мин
Охват и читатели6.6K

Всем привет! Я Виктор Загускин, руководитель отдела голосового ML в MWS AI. Мы разрабатываем продукт формата «спичкит» — распознавание и синтез речи, анализ ее содержания. Наши клиенты используют эту технологию как кубики для создания прикладных продуктов. Чтобы лучше прочувствовать их потребности и боли, лучше познакомиться с тем, как реализовать голосовые ассистенты на основе современных решений, я решил попробовать сделать подобный продукт самостоятельно. Это будет работающий на локальном устройстве голосовой ассистент со встроенной LLM.

В этом цикле материалов я буду рассказывать о процессе создания ассистента, примененных технологиях, выбранном железе, трудностях и путях их преодоления, буду  демонстрировать этапы работ. Попутно расскажу основные концепции, необходимые для реализации голосовых технологий. 

Первая часть цикла посвящена базе — выбору «железа», тулкитов для инференса, моделей для синтеза и распознавания речи и LLM. Поехали!

Читать далее

Как я Альфе новый навык делал и что из этого вышло

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели8.8K

Привет, Хабр!

Время от времени я возвращаюсь к своему pet-проекту голосового ассистента с кодовым именем «Альфа», который разрабатывался как приватный голосовой интерфейс (а-ля «умная колонка») для управления своим «Умным домом». И в этот раз – так сошлись звезды или под влиянием магнитных бурь – мне очень захотелось добавить новый навык. А что из этого вышло, читайте далее.

Читать далее

Нейросеть на смене, или как мы избавили супервайзеров от ручной прослушки и автоматизировали контроль качества звонков

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели5.2K

Мы построили систему речевой аналитики на базе искусственного интеллекта. Она распознаёт речь, выделяет проблемные диалоги и автоматически оценивает качество звонков. Рассказываю, как мы выстраивали пайплайн распознавания и анализа речи, боролись с искажениями моделей и добивались того, чтобы ИИ понимал разговорную речь не хуже человека.

Читать далее

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели18K

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим:

Модель поддерживает SSML;

Модель стала быстрее ещё на 20-25% (она и так была супер быстрой);

С живыми дикторами были подписаны договоры на запись их голоса;

Запись велась в максимально высоком из практически доступного качестве;

Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress;

К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели;

Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

Читать далее

Голосовой ввод для Windows через Vosk своими руками

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели11K

Я пытался найти в Windows похожий встроенный инструмент или готовое решение, но все они либо брали на себя слишком много неактуального для меня функционала, так как задумывались для людей с ограниченными возможностями, либо были платными, либо были недоступны для русского языка.

Лучшим выходом из моей ситуации было создать свое минималистичное решение, и вот как это было:

Читать далее

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели12K

Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла версия v1.2, в которую вошло следующее:

Что вошло?

Ближайшие события

AI Journey 2025: Как первый день конференции изменил представление о будущем российского ИИ

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6.8K

Вчера, 19 ноября в Москве стартовала юбилейная конференция AI Journey, и первый день оказался настолько насыщенным прорывными анонсами, что потребуется не одна статья для их осмысления. От президентских поручений до танцующего робота - разбираемся, что произошло и почему это важно.

Читать далее

Что такое платформа оркестрации Voice AI

Время на прочтение6 мин
Охват и читатели5.3K

Платформа оркестрации голосового ИИ (VAIOP, Voice AI Orchestration Platform) — важнейший управляющий уровень для создания голосовых ИИ агентов и их подключения к коммуникационным системам. Такие платформы дают возможность управлять выбором больших языковых моделей (они же LLM) и систем для обработки и синтеза речи, координируют обработку реплик (VAD и turn-taking), управляют аудио потоками, обрабатывают вызовы внешних функций, обеспечивают соблюдение требований к инфраструктуре, в итоге позволяя внедрять надёжные масштабируемые решения для голосовых агентов в реальном бизнесе.

Читать далее

Без интернета и шпионов: как мы собрали локального голосового ассистента

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели15K

Облачные ассистенты вроде Алисы, Google Assistant и Siri давно стали привычными. Но у всех у них одни и те же слабые места: зависимость от быстрого интернета и риск утечки данных. И речь не только о персональной информации — дома нередко обсуждают темы, которые можно отнести к коммерческой или даже военной тайне. Неудивительно, что многим некомфортно говорить в присутствии микрофона, который каждое слово отправляет куда-то «в облако» (один из наших заказчиков прямо сказал: «никаких Алис в доме не будет»).

На Хабре уже появлялись статьи про попытки заменить Алису на полностью локальные решения. Но почти всегда все сводилось к стандартной схеме: ESP32-микрофон → Home Assistant → intent recognition. Такая связка работает, но до действительно «умного» ассистента ей далеко.

Мы пошли дальше и собрали свой голосовой ассистент, о котором расскажем в статье.

Читать далее

ElevenLabs открыла голосового ассистента для Shopify. Внутри MCP, WebRTC и полностью открытый стек

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели4.6K

ElevenLabs выложила в открытый доступ проект Eleven Shopping - голосового агента, который превращает процесс выбора товаров и оформления заказа в диалог с ИИ. В основе - стек Next.js + React + TypeScript + Tailwind CSS и подключение к Shopify Storefront API через протокол MCP.

Читать далее

Мы опубликовали silero-tts v5 на русском языке

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели13K

Время пришло. Мы решили задачу омографов (пока в первой версии, но идей ещё вагон) и теперь удовольствие от публикации наших новых публичных моделей синтеза наконец-то будет полным! Более того, что следом за ними пойдут ещё кое-какие модели, но это будет сюрприз.

Итак представляем вам новый v5 релиз наших публичных моделей для синтеза речи!

Что поменялось?

Agentic AI: мечта CEO или новый источник корпоративных уязвимостей?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели5.5K

Когда GPT впервые научился вызывать внешние API, стало понятно: нас ждет эра agentic AI. Вчера «Яндекс» представил «Алису» с AI-агентами, которые могут записать вас к врачу, заказать товар и оплатить услугу.

Удобно? Безусловно. Но что, если агент ошибется — отправит деньги не туда, запишет к не тому врачу или сольет данные партнерам? Кто несет ответственность — разработчики, компания или сама «Алиса»?

Тот же вопрос встает и перед бизнесом. В корпоративной среде agentic AI действуют уже от лица компании. Они сами ставят задачи, создают тикеты, вносят изменения в CRM и принимают решения. Это шаг к самоуправляемой организации — и новая зона риска, где ошибка модели может стоить миллионы.

Меня зовут Сергей Спиренков, я евангелист в KODE и CEO собственных проектов. В статье расскажу, где агентные системы уже приносят пользу, а где превращаются из помощников в источник уязвимостей.

Читать далее

Детский значит безопасный. О новом помощнике для детей в колонках Sber

Время на прочтение8 мин
Охват и читатели6.9K

Салют, Хабр!

А мы кота завели. Для детей. В интеллектуальных колонках Sber появился новый помощник СберКот, который ранее обитал внутри детского банковского приложения СберKids. Умный помощник знает ответы на детские «почему» и говорит с детьми на одном языке. Он появится, если сказать колонке:

— Салют, позови СберКота!

В этой статье рассказываем, как выстроили многоуровневую систему безопасности, синтезировали голос СберКота и обучили колонку понимать особенности детской речи.

Читать далее
1
23 ...