Все потоки

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

10,68

Рейтинг

СтатьиПостыНовостиАвторыКомпании

555www555 11 июл в 09:11

Диктофоны и жизнь после жизни

Простой

2 мин

12K

Будущее здесьГаджетыГолосовые интерфейсы * ЗвукНосимая электроника

Мы занимаемся разработкой и производством диктофонов для безопасности Edic‑mini и аудиобейджей «Свидетель» для улучшения качества работы с клиентами (запись общения с клиентами, далее перевод записи в текст и речевая аналитика).

Читать далее

+7

Katner 9 июл в 16:11

Чат для сложных продаж: YandexGPT и звонки через МТС Exolve Web Voice SDK

Средний

14 мин

8.5K

Блог компании ExolveУправление продажами * Веб-разработка * Голосовые интерфейсы * Повышение конверсии *

Туториал

Привет, Хабр!

Чат-бот может быстро ответить на типовые вопросы о товаре, стоимости или доступных вариантах. Но в сложных продажах часть диалогов неизбежно доходит до вопросов, которые удобнее обсудить с человеком: подобрать условия, сравнить несколько предложений, уточнить детали оплаты или принять решение прямо сейчас.

В такой момент пользователю важно дать простой способ перейти от переписки к разговору, не заставляя его искать номер телефона, оставлять заявку и ждать обратного звонка.

В статье соберём чат, который отвечает на вопросы по выбранному туристическому направлению, оценивает контекст диалога и при подходящем сценарии предлагает позвонить менеджеру прямо из браузера.

Стек: FastAPI, Pydantic, requests, YandexGPT, Vite и Web SDK МТС Exolve.

Читать далее

+3

startmaker 8 июл в 14:11

Голосовой ИИ-репетитор изнутри: архитектура разговора в реальном времени

Средний

3 мин

9.5K

Android * Голосовые интерфейсы * Будущее здесьИзучение языковИскусственный интеллект

Кейс

Доброго времени суток!

меня зовут Кирилл, хочу рассказать вам о своем проекте Aisha – ИИ репетиторе английского языка для разговорной практики. Об идее, отличиях, технических аспектах.

Читать далее

+6

snakers4 24 июн в 07:13

Как мы разрабатывали TTS для Ил-2 Штурмовик

Средний

12 мин

9.9K

Машинное обучение * Разработка игр * Natural Language Processing * Голосовые интерфейсы *

Кейс

Так получилось, что нам посчастливилось принять участие в разработке синтеза для новой версии игры "Ил-2 Штурмовик". Это был длинный путь, но в итоге у нас получилось:

Что получилось?

+16

Olegee 10 июн в 08:15

Когда эффективнее автоматизировать 70% вместо 90%, или Почему финтех-боту иногда лучше замолчать?

Средний

7 мин

6.7K

Блог компании СВОЙ ТехГолосовые интерфейсы * Искусственный интеллектМашинное обучение * Анализ и проектирование систем *

Аналитика

Этот текст завершает первую и вторую части трилогии о внедрении LLM в клиентские сервисы. Если раньше мы обсуждали ИИ-агентов и базовую архитектуру, то третья статья получилась самая «бизнесовая» в цикле.

Предлагаю спуститься с небес на землю и без презентационной магии, на основе операционных финтех-кейсов разобрать, где автоматизация приносит деньги и разгружает линию, а где боту нужно вовремя замолчать и передать трубку человеку.

Читать далее

+4

snakers4 4 июн в 07:58

Наш синтез для экранных читалок (SAPI5) для 20 языков России стал лучше

Простой

3 мин

7.6K

Машинное обучение * Open source * Natural Language Processing * Голосовые интерфейсы * Искусственный интеллект

Обзор

Мы не так давно опубликовали SAPI5-обёртку для нашего синтеза на 20 языков России и СНГ. В этот раз опять немного сошлись звёзды и мы уже публикуем улучшение наших читалок. Чтобы не растекаться мыслью по древу и не повторяться, вот краткий список улучшений (полную подводку можно прочитать в прошлой статье):

Покажите список улучшений

+16

DimasOdessa 25 мая в 16:27

Как я решил проблему русской диктовки для ИИ

Простой

5 мин

8.7K

Искусственный интеллектmacOS * Машинное обучение * Развитие стартапаГолосовые интерфейсы *

Кейс

Из песочницы

По мере погружения в ИИ и вайб‑кодинг, я столкнулся с одним неудобным моментом — отсутствием возможности диктовать на русском языке в некоторых программах. И если OpenAI в своем приложении позаботились об этом, то в Anthropic такой возможности на тот момент просто не оказалось. А мне уже так понравилось, откинувшись на спинку кресла с чашкой чая, надиктовывать промпты без клавиатуры.

Но я быстро нашел выход, хоть и костыльный — просто диктовать свой текст в окошке GPT, потом копировать его и вставлять в Claude. Вроде несложно, но и удобным этот метод я бы не назвал. И я задумался, как этот процесс оптимизировать.

И какая же идея могла прийти в голову в 3 часа ночи человеку, который полжизни занимается программированием? Ну конечно же — разработать свое приложение.

Посоветовавшись с Claude и GPT, я набросал небольшой план и приступил к разработке.

Поскольку я работаю на macOS, то для начала не стал заморачиваться с мультиплатформенностью и решил делать все на Swift.

Читать далее

+4

idobryak 22 мая в 05:20

Я устал гадать, мне лучше или хуже, и сделал систему непрерывного измерения температуры

Средний

13 мин

17K

Интернет вещейГолосовые интерфейсы * ГаджетыDIY или Сделай сам

Кейс

Я болею не часто, но видимо из-за того что редко - получается "очень метко".

В прошлый раз это был ковид: тогда я плохо понимал, что со мной происходит, и ситуация едва не закончилась совсем плохо. В этот раз всё выглядело банальнее — высокая температура, которая долго не сбивалась.

Обычный градусник показывал 38–39 °C. И вроде бы все мы понимаем: если температура высокая, долго держится и стандартные средства не помогают, это уже повод как минимум связываться с врачом. Но есть нюанс: чтобы принимать решения не на ощущениях, а на данных, температуру нужно измерять регулярно.

А вот тут начинается бытовая инженерия.

Читать далее

+14

Olegee 20 мая в 10:56

Анатомия гибридного NLU: 6 слоев между вашим клиентом и галлюцинациями нейросети

Средний

6 мин

8.2K

Блог компании СВОЙ ТехУправление проектами * Научно-популярноеГолосовые интерфейсы * Искусственный интеллект

Кейс

В прошлом материале мы подробно разобрали кейс внедрения ИИ-ассистента. Сегодня пойдем глубже и препарируем саму архитектуру системы, которая позволяет боту оставаться полезным и безопасным в жестких рамках финтеха.

Гибридная архитектура голосового бота в финтехе — это не «NLU + LLM», а набор слоёв, где каждый отвечает за свою часть риска и пользы: ASR (Automatic Speech Recognition – автоматическое распознавание речи), NLU, routing, API, knowledge, compliance, voice и LLM-оркестрация. В такой системе самое слабое звено почти всегда важнее самой сильной модели. Если knowledge устарела, API не даёт факты, а routing не умеет передавать на человека, никакая LLM не спасёт.

Читать далее

+2

Medox 18 мая в 09:47

Салют, включи кинотеатр. Управление AV-ресивером и ТВ по локальной сети

Средний

10 мин

10K

*nix * C++ * DIY или Сделай самГолосовые интерфейсы * Яндекс API *

Кейс

Сезон DIY | Лемана Тех х Хабр

Всем добра! Речь пойдет о ресивере Yamaha RX-V575 и телевизоре Samsung UE50F6800AB. Оба устройства не первой свежести, более того, телевизор имеет устаревший и не развиваемый более интерфейс. Однако, полученные результаты могут оказаться полезными для владельцев множества других устройств Yamaha и Samsung. Не все ведь меняют технику ежегодно :)

Статья является логическим продолжением материала об универсальном голосовом шлюзе в том смысле, что показывает куда может двигаться мысль в части улучшения комфорта. Т.е., как и раньше, идея состоит не в том, чтобы разбирать детали, а в том чтобы показать ход мысли. Для деталей есть репозиторий с комментариями.

Сразу оговорюсь, что не стоит дальше читать, если вы:

Читать далее

+1

Flampanzer 8 мая в 08:16

Обзор нейросети Suno v5 в 2026 году: чем она лучше Udio и Riffusion после выхода обновления 5.5?

9 мин

12K

Блог компании SelectelИскусственный интеллектМашинное обучение * ЗвукГолосовые интерфейсы *

Обзор

Вы заметили, как часто в чарты популярных стриминговых сервисов стали попадать сгенерированные нейросетями треки? Иногда их можно спутать с реальными творениями, созданными людьми. Например, в феврале 2026 чарты «Яндекс Музыки» и VK впервые возглавил сгенерированный трек. Проект СДП на стихи Есенина набрал 4,2 млн слушателей за месяц, став хитом.

Но сколько сил вкладывают люди, чтобы создать свой трек, не используя нейросеть? Если сравнить затраты средств и сил на создание реального трека и нейросетевого, думаю ответ очевиден — ИИ-контент создавать гораздо проще. Правда, зачастую он получается не самого лучшего качества. А если все-таки можно сделать что-то достойное при помощи нейросети? Это мы и проверим.

В статье протестируем возможности Suno v5 и ее конкурентов. Попробуем сгенерировать композиции в нескольких жанрах: от джаза и шансона до тяжелого рока. Также мы оценим качество генерации женского и мужского вокала на русском и английском.

Читать далее

+53

Olegee 5 мая в 11:59

Сначала архитектура, потом «магия»: наш путь от сценарных голосовых ботов к умным ассистентам

Средний

4 мин

9.8K

Блог компании СВОЙ ТехИскусственный интеллектГолосовые интерфейсы * Научно-популярноеУправление проектами *

Кейс

В финтехе почти никогда не происходит по красивому сценарию, который обычно рисуют в презентациях: подключили LLM — и внезапно получили умного, почти «человеческого» голосового агента. Эта картинка слишком удобная, чтобы быть правдой. В реальности всё развивается намного медленнее и, если честно, местами довольно приземлённо.

Есть популярный миф. Мол, сначала бот живёт на жёстких сценариях. Потом к нему подключают LLM — и он сам превращается в почти живого собеседника. Звучит красиво. В реальности так не работает. Если посмотреть на реальные проекты в финтехе, всё происходит гораздо проще и… скучнее.

Этот материал — результат работы технической команды СВОЙ Тех. Как Project Manager, я прошел с коллегами путь от простых блок-схем до гибридных систем и хочу поделиться реальным опытом того, что остается «за кадром» красивых презентаций об искусственном интеллекте.

Читать далее

+1

cskeleto 4 мая в 10:45

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах

Средний

7 мин

8.6K

Голосовые интерфейсы * Искусственный интеллектNatural Language Processing * Анализ и проектирование систем * Управление продажами *

Кейс

Из песочницы

Я однажды примерно за сутки сжег около $100 на голосовом агенте.

Не на большом запуске. Не на огромной базе. Не на хитрой рекламной кампании. Просто на небольшом пуле холодных контактов, где агент периодически попадал на voicemail, IVR, секретарей и других ботов.

В какой-то момент два не очень умных голосовых процесса могли довольно долго вежливо говорить друг другу что-то в духе:

Читать далее

+2

ph_piter 29 апр в 09:35

Книга: «Эффективный разговорный ИИ. Создаем чат-ботов, которые действительно работают»

3 мин

9.3K

Блог компании Издательский дом «Питер»Профессиональная литература * Искусственный интеллектГолосовые интерфейсы *

Привет, Хаброжители! Новые мощные фреймворки для разработки чат-ботов и модели генеративного ИИ практически сняли ограничения, связанные с некорректным распознаванием намерений пользователя и генерацией бессодержательных ответов. Освойте разработку чат-ботов на основе больших языковых моделей (LLM) и других современных инструментов, а также проектирование разговорных систем, ориентированных на реальный пользовательский опыт.

Читать далее

+8

UmnServ 28 апр в 14:53

Голосовое управление роботом-перевозчиком паллет: что показал первый тест

5 мин

9.8K

Промышленное программирование * Интерфейсы * Искусственный интеллектГолосовые интерфейсы * Робототехника

Голосовое управление роботами часто выглядит как простая идея: человек произносит команду, робот ее распознает и выполняет действие. В бытовых сценариях мы уже привыкли к голосовым ассистентам, поэтому кажется логичным перенести тот же подход на складскую технику.

Читать далее

+4

Medox 27 апр в 11:03

Алиса в вашем умном доме. Или Маруся. Или Салют

Средний

20 мин

15K

Голосовые интерфейсы * Яндекс API * Умный домDIY или Сделай самC++ *

Кейс

Сезон DIY | Лемана Тех х Хабр

Универсальный шлюз для работы с разными голосовыми помощниками и разными умными домами и умными устройствами.

Читать далее

+7

1024rk 24 апр в 13:15

Вторая жизнь старого смартфона в качестве домашнего сервера

Простой

4 мин

72K

Android * Голосовые интерфейсы *

Из песочницы

Recovery Mode

С появлением нейросетей реализовывать идеи в разработке стало гораздо проще. Идеи практически любого масштаба, надо сказать. Хочу рассказать о довольно крупномасштабной.

Дисклеймер: этот пост — про вайб-кодинг, поэтому в нём не будет приведено ни единой строки кода. Я просто показываю идею, не детали реализации. И немного мнения о вайбкодинге в целом — в конце публикации.

Читать далее

+41

AlekseiVB 16 апр в 04:53

Часть 6: Безопасность и приватность в голосовом управлении — как защитить умный дом от утечек и взломов

Сложный

14 мин

7.2K

Голосовые интерфейсы * Умный домИнформационная безопасность * Искусственный интеллект

Туториал

От диплома до продакшена. Часть 1: Что я хотел … Часть 2: Техническая реализация … Часть 3: Архитектура нейросети … Часть 4: Обучение и валидация … Часть 5: Интеграция с устройствами …

… И ВОТ ТЕПЕРЬ …

Если вы используете умный дом: Настройки… Проверьте разрешения приложений Сеть… Включите WPA3 на Wi-Fi Приватность… Регулярно очищайте историю команд Физическая безопасность…

Там много интересного

0

St_Hedgehog 6 апр в 06:16

Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств

Простой

3 мин

8.2K

Искусственный интеллектИнформационная безопасность * Голосовые интерфейсы *

Мнение

Из песочницы

Всем привет!

В какой-то момент у меня появился простой вопрос: «А можно ли заставить ассистента произнести что-то, что он в норме говорить не должен?» Без API, без навыков программирования, без автоматизации и т.п.

Оказалось - можно.

Читать далее

+6

Kir_Moisha 28 мар в 04:28

Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли

Простой

9 мин

8.4K

Голосовые интерфейсы * macOS * Анализ и проектирование систем * Исследования и прогнозы в IT *

Обзор

Из песочницы

Recovery Mode

30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час — это приговор для бизнеса

Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю — документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что‑то сложнее «I agree» — начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.

Знакомо?

Я CTO, серийный предприниматель, последние годы плотно работаю с AI‑интеграциями. И вот парадокс: могу собрать систему автоматического обзвона клиентов с клонированием голосов, а сам на созвоне звучу как иностранец с разговорником.

Решил наконец закрыть этот гештальт. Полез искать real‑time переводчик. Что‑то типа: я говорю по‑русски, собеседник слышит английский. И наоборот. В реальном времени, без пауз на 10 секунд.

И тут началось интересное.

Читать далее

+13

1

2 3 ...