Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

29,15

Рейтинг

СтатьиПостыНовостиАвторыКомпании

ph_piter 29 апр в 09:35

Книга: «Эффективный разговорный ИИ. Создаем чат-ботов, которые действительно работают»

3 мин

8.2K

Блог компании Издательский дом «Питер»Профессиональная литература * Искусственный интеллектГолосовые интерфейсы *

Привет, Хаброжители! Новые мощные фреймворки для разработки чат-ботов и модели генеративного ИИ практически сняли ограничения, связанные с некорректным распознаванием намерений пользователя и генерацией бессодержательных ответов. Освойте разработку чат-ботов на основе больших языковых моделей (LLM) и других современных инструментов, а также проектирование разговорных систем, ориентированных на реальный пользовательский опыт.

UmnServ 28 апр в 14:53

Голосовое управление роботом-перевозчиком паллет: что показал первый тест

5 мин

РобототехникаГолосовые интерфейсы * Искусственный интеллектИнтерфейсы * Промышленное программирование *

Голосовое управление роботами часто выглядит как простая идея: человек произносит команду, робот ее распознает и выполняет действие. В бытовых сценариях мы уже привыкли к голосовым ассистентам, поэтому кажется логичным перенести тот же подход на складскую технику.

Medox 27 апр в 11:03

Алиса в вашем умном доме. Или Маруся. Или Салют

Средний

20 мин

13K

C++ * DIY или Сделай самУмный домЯндекс API * Голосовые интерфейсы *

Кейс

Универсальный шлюз для работы с разными голосовыми помощниками и разными умными домами и умными устройствами.

1024rk 24 апр в 13:15

Вторая жизнь старого смартфона в качестве домашнего сервера

Простой

4 мин

69K

Android * Голосовые интерфейсы *

Из песочницы

Recovery Mode

С появлением нейросетей реализовывать идеи в разработке стало гораздо проще. Идеи практически любого масштаба, надо сказать. Хочу рассказать о довольно крупномасштабной.

Дисклеймер: этот пост — про вайб-кодинг, поэтому в нём не будет приведено ни единой строки кода. Я просто показываю идею, не детали реализации. И немного мнения о вайбкодинге в целом — в конце публикации.

+40

AlekseiVB 16 апр в 04:53

Часть 6: Безопасность и приватность в голосовом управлении — как защитить умный дом от утечек и взломов

Сложный

14 мин

6.9K

Искусственный интеллектИнформационная безопасность * Умный домГолосовые интерфейсы *

Туториал

От диплома до продакшена. Часть 1: Что я хотел … Часть 2: Техническая реализация … Часть 3: Архитектура нейросети … Часть 4: Обучение и валидация … Часть 5: Интеграция с устройствами …

… И ВОТ ТЕПЕРЬ …

Если вы используете умный дом: Настройки… Проверьте разрешения приложений Сеть… Включите WPA3 на Wi-Fi Приватность… Регулярно очищайте историю команд Физическая безопасность…

Там много интересного

St_Hedgehog 6 апр в 06:16

Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств

Простой

3 мин

7.6K

Искусственный интеллектИнформационная безопасность * Голосовые интерфейсы *

Мнение

Из песочницы

Всем привет!

В какой-то момент у меня появился простой вопрос: «А можно ли заставить ассистента произнести что-то, что он в норме говорить не должен?» Без API, без навыков программирования, без автоматизации и т.п.

Оказалось - можно.

Kir_Moisha 28 мар в 04:28

Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли

Простой

9 мин

7.7K

Голосовые интерфейсы * macOS * Анализ и проектирование систем * Исследования и прогнозы в IT *

Обзор

Из песочницы

Recovery Mode

30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час — это приговор для бизнеса

Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю — документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что‑то сложнее «I agree» — начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.

Знакомо?

Я CTO, серийный предприниматель, последние годы плотно работаю с AI‑интеграциями. И вот парадокс: могу собрать систему автоматического обзвона клиентов с клонированием голосов, а сам на созвоне звучу как иностранец с разговорником.

Решил наконец закрыть этот гештальт. Полез искать real‑time переводчик. Что‑то типа: я говорю по‑русски, собеседник слышит английский. И наоборот. В реальном времени, без пауз на 10 секунд.

И тут началось интересное.

+13

snakers4 27 мар в 14:08

Теперь silero-tts v5 на русском языке умеет задавать вопросы

Простой

4 мин

9.4K

Natural Language Processing * Open source * Python * Машинное обучение * Голосовые интерфейсы *

Обзор

Мы недавно писали про обновление нашего публичного синтеза, silero-tts. В прошлый раз мы существенно увеличили скорость, качество и добавили поддержку омографов.

В этот раз мы хотим вас порадовать особенной фичей, которая в большинстве случаев стабильно не работает даже в моделях синтеза, которые требуют для своей работы на 3-4 порядка больше вычислительных ресурсов и современные серверные видеокарты (наш синтез запускается даже на слабых процессорах).

Как вы догадались, эта фича — это постановка вопросов.

Хочу послушать вопросы

+41

freedey1601 25 мар в 13:16

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

5 мин

7.4K

Машинное обучение * Изучение языковГолосовые интерфейсы * Python * Программирование *

Кейс

Из песочницы

✏️ Технотекст 8

Привет, Хабр! Меня зовут Vlad, я начинающий Python‑разработчик и энтузиаст изучения языков.

Недавно я столкнулся с классической проблемой полиглота‑самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было.

Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram‑бота, который:

1. Слушает голосовые сообщения и распознает речь без дорогих облачных API.
2. Оценивает точность произношения в процентах, сравнивая с эталоном.
3. Поддерживает живой диалог через LLM, исправляя ошибки на лету.
4. Работает быстро и экономно на слабом VPS.

В этой статье я подробно разберу архитектуру проекта, покажу, как интегрировать бинарный whisper.cpp в асинхронный aiogram 3.x, реализую алгоритм оценки речи и расскажу про управление состояниями (FSM). Под капотом — Python, нейросети и немного магии.

Andrey3343 13 мар в 05:59

Как я вайбкодил озвучку текста для AutoCraft

Простой

7 мин

2.6K

Python * Искусственный интеллектГолосовые интерфейсы *

Обзор

С этим расширением всё началось довольно просто: я хотел упростить себе озвучку книг и больших текстов внутри своего проекта, а не прыгать каждый раз между разными сервисами и программами.

План был обычный: вставил текст, выбрал движок, получил озвучку.

Но потом, как это часто бывает, всё поехало чуть дальше:

— LLM подкинула несколько идей
— кто-то попросил добавить дополнительные возможности
— а мне самому пришлось разбираться с символами, которые вообще не должны озвучиваться

В итоге из обычной функции озвучки выросло отдельное расширение для веб-панели AutoCraft.

Сразу уточню: эта статья именно про расширение Win TTS для веб-панели.

Про саму веб-панель я потом напишу отдельно, когда доведу её до состояния, которое меня устроит.

Flampanzer 12 мар в 08:00

Как заставить англоязычную нейросеть читать по-русски (и стоит ли оно того)

4 мин

9.9K

Блог компании SelectelМашинное обучение * Научно-популярноеГолосовые интерфейсы * Искусственный интеллект

Обзор

Сегодня полностью погрузимся в мир TTS (Text-to-Speech) — новое русло нейросетей, призванных облегчить жизнь и отобрать работу у профессиональных дикторов, актеров и тех, чей голос мы привыкли слышать в любимых фильмах.

Рассмотрим бесплатные модели, не требующие кредитов, подписок или трех цифр на обороте карты. Заранее обозначу, что не все модели поддерживают русский язык, а у некоторых присутствует своеобразный акцент, как у Шварценеггера из фильма «Красная жара».

Я буду генерировать озвучку не только на английском, но и на русском языке, чтобы понять, насколько отличается качество звучания и произношения, и можно ли вообще использовать эти модели, закрыв глаза на ограничение языков.

+60

loveprod 4 мар в 08:00

Проект «Прометей»: как озвучить целую библиотеку за один вечер при помощи ИИ

Средний

8 мин

12K

Блог компании SelectelИскусственный интеллектГолосовые интерфейсы * Системное администрирование * Open source *

Обзор

Каждый из вас хоть раз ловил себя на мысли: «А почему бы не начать слушать книги вместо того, чтобы их читать?». Пока едешь в метро, стоишь в пробке, занимаешься домашней рутиной или вместо приевшейся музыки в спортзале — сценариев масса.

В сети полно литературы, но если вы эстет и ищете что-то глубже «Онегина» или модных бестселлеров, то наверняка сталкивались с проблемой: нужной книжки в аудио просто не существует.

Так вот, тут мы попадаем в ловушку. Технологий синтеза речи (TTS) сейчас море, а вменяемого инструмента, чтобы массово превращать текст в звук, нет.

Либо вы платите корпорациям за каждый символ через официальные API, превращая чтение в дорогую привычку, либо ковыряете софт, застрявший в эпохе Windows XP, который озвучивает файлы дольше, чем вы бы читали их вслух сами.

Я системный администратор. Моя работа — заставлять системы работать эффективно, и я не люблю ждать. Не люблю, когда мой домашний компьютер превращается в жужжащую печку, показывая 1% прогресса в час. Этот материал — не просто туториал, а технический разбор и своего рода «дневник» процесса разработки проекта «Прометей». Мы посмотрим, как превратить выделенный сервер в промышленную фабрику аудиокниг, способную выдавать 20 часов готового звука за 11 минут.

+76

vzaguskin 27 фев в 12:30

Разрабатываем голосового ассистента на Rockchip. Часть 2

Средний

15 мин

8.2K

Блог компании МТСБлог компании MWS AIDIY или Сделай самГолосовые интерфейсы * Искусственный интеллект

Туториал

Продолжаю разрабатывать DIY голосового ассистента на SOC-платформе Rockchip.

В первой части смы соединили в единый конвейер вызов распознавания речи, локального чат-бота и синтез ответа.

Если еще не читали, то вам сюда.

Во второй части поговорим об улучшениях работы с синтезом речи. Научим нашего ИИ-помощника произносить текст, содержащий сложные для моделей сущности, а также сделаем его более плавным.

+24

RyabovA 18 фев в 11:59

Распознавание речи и голосовое управление на Repka Pi 4, автономная работа, real-time, нейросеть Vosk на базе Kaldi

Средний

18 мин

9.5K

Программирование микроконтроллеров * Интернет вещейГолосовые интерфейсы * Raspberry Pi *

Кейс

В современном мире технологии распознавания речи используются очень широко. Например, они нашли применение в системах управления умным домом, в устройствах IoT, при управлении различным оборудованием. Наличие в одноплатных микрокомпьютерах портов вводы/вывода и промышленных интерфейсов позволяет управлять устройствами голосом.

В статье рассказано, как настроить локальное (автономно работающее) распознавание речи в реальном времени на микрокомпьютере отечественного Российского производства Repka-Pi 4 Optimal, на борту у которого есть всего 2 Гбайт оперативной памяти.

Рассмотрим такую работу на конкретных примерах и разберём подробно, как это работает. Дальше простор для фантазии и создания своих проектов открывается безграничный.

+16

GrekNirvana 25 янв в 16:28

Как я собрал свою собственную умную колонку и Wi-Fi mesh-роутер в одном флаконе или конкурент для Яндекс станции

Средний

13 мин

24K

Беспроводные технологии * Голосовые интерфейсы * ЗвукНастройка Linux * Сетевые технологии *

Кейс

Привет Хабр! Меня зовут Алексей и я занимаюсь беспроводными технологиями. В этой статье я расскажу, как собрал прототип своей собственной умной колонки, объединённой в одном устройстве вместе с Wi-Fi mesh-роутером. Начну издалека и поразмышляю о том, какие плюсы может принести такое устройство как для качественного Wi-Fi в квартире, так и для производителей умных колонок. Проанализирую уже существующие на рынке решения и попробую собрать собственное устройство из USB-аудиокарты, роутера и обычной Bluetooth-колонки.

+11

snakers4 30 дек 2025 в 15:17

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Простой

3 мин

14K

Искусственный интеллектГолосовые интерфейсы * Natural Language Processing * Open source * Машинное обучение *

Всё шло к этому. Мы решили задачу омографов в русском языке (мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ.

Вы уже много раз упоминали, что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось.

Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU).

Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит.

Протестируем!

+43

KalashQK 26 дек 2025 в 08:16

Для чего нужен Умный дом и почему я разработала свое устройство

Простой

13 мин

9.5K

Яндекс API * Умный домГолосовые интерфейсы * ГаджетыDIY или Сделай сам

Из песочницы

Для чего нужен Умный дом и почему я разработала свое устройство

История о разработке устройства умного дома без опыта, с минимальными ресурсами и максимальными приключениями в течение 6 лет. МУЗА — одно простое устройство для управления всеми основными функциями Умного дома, умная колонка с Алисой, датчиками и камерой в одном корпусе.

AlexIntekey 17 дек 2025 в 12:14

Голосовое управление на складе: как мы внедряем Voice Picking и что из этого получается

Простой

20 мин

7.4K

Блог компании INTEKEYIT-инфраструктура * IT-компанииГолосовые интерфейсы * Управление разработкой *

Меня зовут Александр, я руковожу отделом внедрения в INTEKEY. Мы — системные интеграторы в логистике. Это значит, что мы помогаем складам автоматизировать процессы комплексно: от анализа задач и выбора технологий до внедрения, обучения и поддержки.

В этой статье я хочу поделиться нашим опытом работы с голосовым управлением (VoicePicking/Pick-by-Voice*) на складах. Нашим партнером в этом направлении выступает компания Айвойс с платформой GOLAS. Мы начали работать с этой технологией несколько лет назад, и за это время внедрили ее на разных объектах.

Я расскажу, как это работает на практике, с какими техническими и организационными нюансами мы сталкивались и на что стоит обратить внимание, если вы рассматриваете такую возможность для своего склада.

*Voice Picking (голосовой отбор, Pick-by-Voice) — это технология автоматизации складских процессов, при которой сотрудники получают задания и подтверждают их выполнение с помощью голосовых команд через гарнитуру. Это полностью безбумажный и hands-free метод работы, который интегрируется со складской системой управления (WMS) для обмена данными в реальном времени.

KKK_56 17 дек 2025 в 08:00

Как в звонках автоматически находить первые признаки выгорания операторов кол-центра

10 мин

Блог компании МТСВеб-разработка * Голосовые интерфейсы * Управление персоналом * Python *

Туториал

Привет, Хабр!

Выгорание операторов — распространенная проблема в кол-центрах. По разным оценкам, текучесть персонала здесь достигает 40–45%, а средний срок работы составляет 8–12 месяцев. Это приводит к дополнительным расходам на обучение, росту нагрузки на команду и снижению качества сервиса. При этом заметные изменения в поведении сотрудников обычно фиксируются слишком поздно — когда проблема уже стала системной.

Я Катя Саяпина, менеджер продукта МТС Exolve. В этом материале разберу способ раннего обнаружения таких изменений. Он опирается на статистические отклонения в поведении оператора и дополняет прямое общение с сотрудниками и сбор обратной связи в команде. Мы создадим на Python сервис, который объединит Telegram-бота, API МТС Exolve и LLM, развернутую на платформе MWS GPT.

AnatolyBelov 10 дек 2025 в 06:00

Автоматизация приема заказов по телефону. Личный опыт и реальные результаты

8 мин

4.9K

Искусственный интеллектГолосовые интерфейсы * Управление продажами *

Каждый день миллионы клиентов звонят в компании по телефону - и каждый такой звонок обходится бизнесу в деньги, время и репутацию. Операторы выгорают от монотонных разговоров, клиенты бросают трубку после долгого ожидания, а бизнес теряет прибыль на рутине, которую давно пора автоматизировать.

Я уже несколько лет занимаюсь разработкой и внедрением голосовых ботов для приема заказов по телефону - не в теории, а для реальных компаний, с реальными клиентами и реальными заказами.

В этой статье я поделюсь конкретными кейсами, которые помогут владельцам и руководителям бизнеса понять:

Какую реальную пользу приносит автоматизация (и почему это не просто модное слово).

С какими трудностями сталкивались на практике - и как их преодолевали.

Каких результатов удалось достичь - в реальных цифрах, фактах и отзывах.

2 3 ...

16 17