Алиса в вашем умном доме. Или Маруся. Или Салют

Универсальный шлюз для работы с разными голосовыми помощниками и разными умными домами и умными устройствами.

управляем устройствами при помощи голосовых команд

Универсальный шлюз для работы с разными голосовыми помощниками и разными умными домами и умными устройствами.
С появлением нейросетей реализовывать идеи в разработке стало гораздо проще. Идеи практически любого масштаба, надо сказать. Хочу рассказать о довольно крупномасштабной.
Дисклеймер: этот пост — про вайб-кодинг, поэтому в нём не будет приведено ни единой строки кода. Я просто показываю идею, не детали реализации. И немного мнения о вайбкодинге в целом — в конце публикации.

От диплома до продакшена. Часть 1: Что я хотел … Часть 2: Техническая реализация … Часть 3: Архитектура нейросети … Часть 4: Обучение и валидация … Часть 5: Интеграция с устройствами …
… И ВОТ ТЕПЕРЬ …
Если вы используете умный дом: Настройки… Проверьте разрешения приложений Сеть… Включите WPA3 на Wi-Fi Приватность… Регулярно очищайте историю команд Физическая безопасность…

Всем привет!
В какой-то момент у меня появился простой вопрос: «А можно ли заставить ассистента произнести что-то, что он в норме говорить не должен?» Без API, без навыков программирования, без автоматизации и т.п.
Оказалось - можно.
30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час — это приговор для бизнеса
Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю — документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что‑то сложнее «I agree» — начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.
Знакомо?
Я CTO, серийный предприниматель, последние годы плотно работаю с AI‑интеграциями. И вот парадокс: могу собрать систему автоматического обзвона клиентов с клонированием голосов, а сам на созвоне звучу как иностранец с разговорником.
Решил наконец закрыть этот гештальт. Полез искать real‑time переводчик. Что‑то типа: я говорю по‑русски, собеседник слышит английский. И наоборот. В реальном времени, без пауз на 10 секунд.
И тут началось интересное.

Мы недавно писали про обновление нашего публичного синтеза, silero-tts. В прошлый раз мы существенно увеличили скорость, качество и добавили поддержку омографов.
В этот раз мы хотим вас порадовать особенной фичей, которая в большинстве случаев стабильно не работает даже в моделях синтеза, которые требуют для своей работы на 3-4 порядка больше вычислительных ресурсов и современные серверные видеокарты (наш синтез запускается даже на слабых процессорах).
Как вы догадались, эта фича — это постановка вопросов.

Привет, Хабр! Меня зовут Vlad, я начинающий Python‑разработчик и энтузиаст изучения языков.
Недавно я столкнулся с классической проблемой полиглота‑самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было.
Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram‑бота, который:
1. Слушает голосовые сообщения и распознает речь без дорогих облачных API.
2. Оценивает точность произношения в процентах, сравнивая с эталоном.
3. Поддерживает живой диалог через LLM, исправляя ошибки на лету.
4. Работает быстро и экономно на слабом VPS.
В этой статье я подробно разберу архитектуру проекта, покажу, как интегрировать бинарный whisper.cpp в асинхронный aiogram 3.x, реализую алгоритм оценки речи и расскажу про управление состояниями (FSM). Под капотом — Python, нейросети и немного магии.

С этим расширением всё началось довольно просто: я хотел упростить себе озвучку книг и больших текстов внутри своего проекта, а не прыгать каждый раз между разными сервисами и программами.
План был обычный: вставил текст, выбрал движок, получил озвучку.
Но потом, как это часто бывает, всё поехало чуть дальше:
— LLM подкинула несколько идей
— кто-то попросил добавить дополнительные возможности
— а мне самому пришлось разбираться с символами, которые вообще не должны озвучиваться
В итоге из обычной функции озвучки выросло отдельное расширение для веб-панели AutoCraft.
Сразу уточню: эта статья именно про расширение Win TTS для веб-панели.
Про саму веб-панель я потом напишу отдельно, когда доведу её до состояния, которое меня устроит.

Сегодня полностью погрузимся в мир TTS (Text-to-Speech) — новое русло нейросетей, призванных облегчить жизнь и отобрать работу у профессиональных дикторов, актеров и тех, чей голос мы привыкли слышать в любимых фильмах.
Рассмотрим бесплатные модели, не требующие кредитов, подписок или трех цифр на обороте карты. Заранее обозначу, что не все модели поддерживают русский язык, а у некоторых присутствует своеобразный акцент, как у Шварценеггера из фильма «Красная жара».
Я буду генерировать озвучку не только на английском, но и на русском языке, чтобы понять, насколько отличается качество звучания и произношения, и можно ли вообще использовать эти модели, закрыв глаза на ограничение языков.

Каждый из вас хоть раз ловил себя на мысли: «А почему бы не начать слушать книги вместо того, чтобы их читать?». Пока едешь в метро, стоишь в пробке, занимаешься домашней рутиной или вместо приевшейся музыки в спортзале — сценариев масса.
В сети полно литературы, но если вы эстет и ищете что-то глубже «Онегина» или модных бестселлеров, то наверняка сталкивались с проблемой: нужной книжки в аудио просто не существует.
Так вот, тут мы попадаем в ловушку. Технологий синтеза речи (TTS) сейчас море, а вменяемого инструмента, чтобы массово превращать текст в звук, нет.
Либо вы платите корпорациям за каждый символ через официальные API, превращая чтение в дорогую привычку, либо ковыряете софт, застрявший в эпохе Windows XP, который озвучивает файлы дольше, чем вы бы читали их вслух сами.
Я системный администратор. Моя работа — заставлять системы работать эффективно, и я не люблю ждать. Не люблю, когда мой домашний компьютер превращается в жужжащую печку, показывая 1% прогресса в час. Этот материал — не просто туториал, а технический разбор и своего рода «дневник» процесса разработки проекта «Прометей». Мы посмотрим, как превратить выделенный сервер в промышленную фабрику аудиокниг, способную выдавать 20 часов готового звука за 11 минут.

Продолжаю разрабатывать DIY голосового ассистента на SOC-платформе Rockchip.
В первой части смы соединили в единый конвейер вызов распознавания речи, локального чат-бота и синтез ответа.
Если еще не читали, то вам сюда.
Во второй части поговорим об улучшениях работы с синтезом речи. Научим нашего ИИ-помощника произносить текст, содержащий сложные для моделей сущности, а также сделаем его более плавным.

В современном мире технологии распознавания речи используются очень широко. Например, они нашли применение в системах управления умным домом, в устройствах IoT, при управлении различным оборудованием. Наличие в одноплатных микрокомпьютерах портов вводы/вывода и промышленных интерфейсов позволяет управлять устройствами голосом.
В статье рассказано, как настроить локальное (автономно работающее) распознавание речи в реальном времени на микрокомпьютере отечественного Российского производства Repka-Pi 4 Optimal, на борту у которого есть всего 2 Гбайт оперативной памяти.
Рассмотрим такую работу на конкретных примерах и разберём подробно, как это работает. Дальше простор для фантазии и создания своих проектов открывается безграничный.

Привет Хабр! Меня зовут Алексей и я занимаюсь беспроводными технологиями. В этой статье я расскажу, как собрал прототип своей собственной умной колонки, объединённой в одном устройстве вместе с Wi-Fi mesh-роутером. Начну издалека и поразмышляю о том, какие плюсы может принести такое устройство как для качественного Wi-Fi в квартире, так и для производителей умных колонок. Проанализирую уже существующие на рынке решения и попробую собрать собственное устройство из USB-аудиокарты, роутера и обычной Bluetooth-колонки.

Всё шло к этому. Мы решили задачу омографов в русском языке (мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ.
Вы уже много раз упоминали, что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось.
Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU).
Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит.

Для чего нужен Умный дом и почему я разработала свое устройство
История о разработке устройства умного дома без опыта, с минимальными ресурсами и максимальными приключениями в течение 6 лет. МУЗА — одно простое устройство для управления всеми основными функциями Умного дома, умная колонка с Алисой, датчиками и камерой в одном корпусе.

Меня зовут Александр, я руковожу отделом внедрения в INTEKEY. Мы — системные интеграторы в логистике. Это значит, что мы помогаем складам автоматизировать процессы комплексно: от анализа задач и выбора технологий до внедрения, обучения и поддержки.
В этой статье я хочу поделиться нашим опытом работы с голосовым управлением (VoicePicking/Pick-by-Voice*) на складах. Нашим партнером в этом направлении выступает компания Айвойс с платформой GOLAS. Мы начали работать с этой технологией несколько лет назад, и за это время внедрили ее на разных объектах.
Я расскажу, как это работает на практике, с какими техническими и организационными нюансами мы сталкивались и на что стоит обратить внимание, если вы рассматриваете такую возможность для своего склада.
*Voice Picking (голосовой отбор, Pick-by-Voice) — это технология автоматизации складских процессов, при которой сотрудники получают задания и подтверждают их выполнение с помощью голосовых команд через гарнитуру. Это полностью безбумажный и hands-free метод работы, который интегрируется со складской системой управления (WMS) для обмена данными в реальном времени.

Привет, Хабр!
Выгорание операторов — распространенная проблема в кол-центрах. По разным оценкам, текучесть персонала здесь достигает 40–45%, а средний срок работы составляет 8–12 месяцев. Это приводит к дополнительным расходам на обучение, росту нагрузки на команду и снижению качества сервиса. При этом заметные изменения в поведении сотрудников обычно фиксируются слишком поздно — когда проблема уже стала системной.
Я Катя Саяпина, менеджер продукта МТС Exolve. В этом материале разберу способ раннего обнаружения таких изменений. Он опирается на статистические отклонения в поведении оператора и дополняет прямое общение с сотрудниками и сбор обратной связи в команде. Мы создадим на Python сервис, который объединит Telegram-бота, API МТС Exolve и LLM, развернутую на платформе MWS GPT.

Каждый день миллионы клиентов звонят в компании по телефону - и каждый такой звонок обходится бизнесу в деньги, время и репутацию. Операторы выгорают от монотонных разговоров, клиенты бросают трубку после долгого ожидания, а бизнес теряет прибыль на рутине, которую давно пора автоматизировать.
Я уже несколько лет занимаюсь разработкой и внедрением голосовых ботов для приема заказов по телефону - не в теории, а для реальных компаний, с реальными клиентами и реальными заказами.
В этой статье я поделюсь конкретными кейсами, которые помогут владельцам и руководителям бизнеса понять:
Какую реальную пользу приносит автоматизация (и почему это не просто модное слово).
С какими трудностями сталкивались на практике - и как их преодолевали.
Каких результатов удалось достичь - в реальных цифрах, фактах и отзывах.

В статье полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.
Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд.

Компания xAI представила результаты 24-часового внутреннего хакатона, на котором команда разработчиков создавала прототипы на базе Grok - AI-модели, тесно интегрированной с платформой X. Формат был простым: сутки непрерывной работы и полная свобода экспериментировать с агентами, обработкой данных и интеграциями. Но именно эта «сжатость» хорошо показала, как быстро Grok превращается в инструмент для прикладных задач, а не просто чат-модель.