Обновить
19.8

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров4.9K

Мы уже рассказывали про наш детектор голоса на Хабре тут, тут и тутКратко опишу, что стало лучше в этот раз:

Поддержка 6 000+ языков;

Общий рост качества на 5-7%;

Существенно повышена устойчивость на шумных данных;

TorchScript (*) стал в 3 раза быстрее, а ONNX - на 10% (теперь они примерно равны по скорости, обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);

Читать далее

Звони первым, если проблема неизбежна. Снижаем contact rate проактивной коммуникацией

Время на прочтение7 мин
Количество просмотров1.9K

Привет, Хабр! Меня зовут Даша Кряжева, я продакт-менеджер, сейчас занимаюсь исходящим голосовым роботом в СберМаркете. С его помощью нам удалось автоматизировать 30% клиентских и партнерских обращений в контактный центр, но это не только про цифры. Проактивная коммуникация — это всегда про повышение лояльности и открытый диалог с пользователями.

Перед нами стоит большая задача: выдерживать нагрузку на службу заботы с сохранением качества обслуживания при стремительном росте бизнеса. В статье расскажу, как этого достичь, а в конце предложу план, чтобы вы могли стартовать проактивные коммуникации в своей компани :)

Читать далее

Из заказной разработки в продуктовую: как мы сделали диалоговую платформу для создания ботов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.2K

Боты бесят многих, но при разумном применении они приносят пользу не только бизнесу, но и клиенту. Например, запишут пациентов к врачу вместо администраторов или найдут нового сотрудника в магазин вместо HR. Хороший бот должен быть приветливым, понимать запросы пользователей на естественном языке, не тупить и быстро решать задачу клиента, поэтому у них «под капотом» сложная и гибкая система.

Привет, Хабр! Меня зовут зовут Анна Гаджимурадова, я менеджер продукта Robovoice. В 2019 году мы начали проектирование платформы по созданию, администрированию и аналитике диалоговых ботов. До этого мы тоже делали ботов, но кастомно, поэтому подстраивались под каждого клиента — это приносило свои плоды, но с изменением бизнес‑процессов клиентам требуются корректировки скриптов, что влечет дополнительные финансовые и временных расходы. В статье расскажу, с какими сложностями мы столкнулись при разработке платформы.

Читать далее

Моя б̶е̶з̶умная колонка: часть вторая // программная

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров19K

Привет, Хабр!

В прошлой статье я описал аппаратную реализацию своего голосового ассистента на базе бюджетного одноплатника Orange Pi Zero 2W с 4Гб оперативной памяти. Эту же статью хочу посвятить программной реализации данного устройства. Если стало интересно, то добро пожаловать под кат.
Читать дальше →

Бот с характером: как образ и персона ботов влияют на клиентов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.2K

Привет, Хабр! Меня зовут Ирина Степанова, я занимаюсь аналитикой разговорных интерфейсов в Just AI. Клиенты часто приходят с запросом на «человекоподобных»‎ ботов, но всем ли они нужны? И как специфика компании влияет на образ голосового помощника или чат-бота? В этой статье расскажу, какие боты пользуются популярностью в финтехе, из чего состоит образ бота и дам несколько рекомендаций по разработке личности виртуального помощника.

Читать далее

Вкалывают роботы, счастлив человек

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.7K

Не знаю, многие ли из здешних обитателей смотрели фильм "Приключения Электроника", но песню, в которой есть слова "вкалывают роботы, счастлив человек", уверен, слышали многие.

Я хорошо эти слова запомнил, укладывая асфальт на 35° жаре в детском садике под эту песню:).

Но тем не менее всегда верил, что роботы будут вкалывать, а человек отдыхать. Но действительность пока не в пользу таких мыслей. Наоборот, роботы не просто не вкалывают, а указывают, что человеку делать.

В пятёрочках видеокамеры с искусственным интеллектом смотрят за тем, чтобы стеллажи были не пусты и в случае недостатка товара указывают людям, куда его положить.

Но недавно набрёл на ещё более интересный проект. https://xn--d1abjl7at.xn--p1ai/case.php?case=2403

Читаем описание проекта и наслаждаемся.

Голосовые технологии позволяют управлять в режиме реального времени всеми складскими операциями - от приемки до отгрузки. В частности, технология позволяет осуществлять комплектацию как штучного, так и весового товара; сборку больших заказов одновременно несколькими комплектовщиками; весовой контроль скомплектованых паллет; обеспечивает автоматическую выдачу комплектовщикам заданий и паллетных ярлыков. Начальник склада формирует состав заказа и загружает его в систему учета (WMS или ERP). В ней заказ переводится в пошаговую инструкцию — например, в какой секции, на каком стеллаже, на какой полке сколько единиц товара нужно взять. Инструкция отправляется на мобильный голосовой терминал, закрепленный на поясе у комплектовщика. Синтезированный голос пошагово выдает команды сотруднику. Комплектовщик выполняет команду и сообщает об этом в микрофон — ГОЛАС выдает ему следующий шаг инструкции. Процесс повторяется, пока заказ не будет полностью укомплектован.

Читать далее

Настройка bluetooth микрофона с шумоподавлением в PipeWire

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3K

В череде дней «длинных» майских праздников решил развернуть голосовой помощник на сервере домашней автоматизации Home Assistant. Мой домашний сервер работает под управлением ОС Ubuntu Server 23.10 и не имеет никаких предустановленных источников или приемников аудио и видео информации. В Ubuntu были установлены аудиосервер PipeWire и менеджер сеансов WirePlumber. Такой выбор был продиктован тем, что эти приложения являются стандартным ПО по обработке аудио и видео потоков в Linux. В сети мне не удалось обнаружить какого-либо полного описания процесса настройки, и эта статья, в некоторой степени, восполняет этот пробел.

Читать далее

Встречайте MajorDom: умный дом будущего, который действительно умён

Время на прочтение11 мин
Количество просмотров20K

В мире умных домов часто приходится выбирать между удобством и функционалом. Раздумывая над тем, каким может быть идеальный умный дом, мы пришли к идее MajorDom — системе, которая стремится изменить этот баланс и упростить быт без жертв. В этом посте поделимся нашим видением и некоторыми основными принципами новой экосистемы, включая приватность, автономность и широкую поддержку устройств.

Читать далее

Интерактивный NPC на Unreal Engine

Время на прочтение5 мин
Количество просмотров8.7K

Всем привет.

Я хочу с вами поделиться результатами эксперимента по созданию интерактивного NPC на Unreal Engine 5.

Speech recognition, Text-to-speech, LLM модели, LipSync, MetaHuman и все это без использования сторонних сервисов.

Видео работы и ссылка на демо версию прилагается.

Если вам интересно увидеть результат и обсудить перспективы интерактивных NPC в игровой индустрии - добро пожаловать под кат.

Читать далее

Превращаем голосовое сообщение в структурированную заметку

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.3K

Вы когда-нибудь оказывались в ситуации, когда голова была полна идей, но записать их нет возможности? Тогда вы знаете, как бывает сложно быстро и качественно зафиксировать свои мысли. А может вам знакома ситуация, когда собеседник записывает голосовое сообщение на 5 минут с описанием какого-нибудь проекта, и вам приходится переслушивать его снова и снова, чтобы понять все детали. Столкнувшись с этим, я решил сделать Telegram-бота, который может превратить голосовое сообщение в структурированную заметку.

Читать далее

Как правильно написать скрипт для виртуального ассистента

Время на прочтение6 мин
Количество просмотров2.1K

Здравствуйте! Меня зовут Михаил Абрамов, я работаю техническим писателем в МТС Exolve. Мы разрабатываем и тестируем цифровых ботов на платформе VoiceBox — это конструктор голосовых роботов.

Мы запустили этот проект в 2020 году. Он создавался для бизнеса, наших клиентов, которые хотели автоматизировать рутину, например, подтверждение брони, доставки, адреса и так далее.

Сразу предупрежу возможный негатив: наш сервис можно использовать только для звонков людям, которые готовы к этому звонку. Вы заказали пиццу и робот позвонил, сообщил номер заказа, проговорил все его позиции и время доставки. Словом, полезный робот.

Сегодня расскажу, как можно легко и просто разрабатывать скрипты звонков в графическом интерфейсе нашего конструктора.

Читать далее

Как написать ТЗ на разработку чат-бота или AI-ассистента

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров11K

 Привет, Хабр! Меня зовут Элина Тедеева, и я тимлид команды внедрения в команде Just AI. 

В идеальном мире разработка бота или голосового ассистента начинается с технического задания — именно оно должно определять все этапы: от идеи до реализации. О том, почему ТЗ нельзя пренебрегать, как его грамотно составить и какие подводные камни могут встретиться в процессе, я расскажу в этой статье.

Читать далее

Робот, ты нелюдь! Статья, которая ничего не изменит

Время на прочтение5 мин
Количество просмотров6.7K

Я хорошо помню начало бума IVR в России: с появлением доступной IP-телефонии компании бросились заказывать и самостоятельно проектировать схемы голосовых меню. Казалось, найдена таблетка от всего: можно сокращать размер колл-центров, экономить время сотрудников и клиентов, не переживать за то, что клиент интроверт и изольёт свою боль на голову несчастного менеджера. А главное, стоит копейки! Но шло время и тропа технологической эволюции пошла туда же, куда и биологической: видовое разнообразие и освоение территорий. В общем, задолбали эти роботы! Но почему-то они продолжают оставаться в слепой зоне компаний, так активно ратующих за идеальный сервис.

Читать далее

Ближайшие события

UI / UX — когда миллионы людей ошибаются

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров16K

UI-дизайн — это про то, как выглядит интерфейс, UX — про то как с ним работает пользователь. Хочется спросить — «Вы откуда это вообще взяли»? 

Читать далее

Как GPT и голосовые ассистенты изменят работу со смартфонами

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.4K

В начале года мы уже стали свидетелями того, как AutoGPT, а затем GPT Engineer демонстрировали, что приложения на GPT способны совместно писать код и решать сложные задачи. Следующий этап — это автоматическое взаимодействие с приложениями с помощью голоса.

Сегодня мы рассмотрим свежую работу исследователей из Tencent, которые сделали прототип ассистента AppAgent для мобильных приложений. Этот ассистент способен учиться взаимодействовать с любыми приложениями, обеспечивая доступ к ним через голосовой интерфейс без необходимости интеграции с API или изменения пользовательского интерфейса. Теперь достаточно сказать: “Эй, банк, переведи 300 рублей Васе за обед на карту Сбера”, и AppAgent самостоятельно откроет ваше любимое банковское приложение, найдет друга и переведет ему деньги. Конечно, возможно пока приложение учится оно отправит не 300, а 3000 рублей и не Васе, а Пете, но прогресс не остановить и такое упрощение работы с девайсами наше будущее. Кстати, в статье утверждается, что на этапе прототипа уже достигнута точность (success rate) порядка 95%.

Добро пожаловать под КАТ за подробностями.

Читать далее

Секрет внутренней связи: откровения Маруси о том, как она научилась слушать себя

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров3.3K

Привет, Хабр! Меня зовут Коля Кремер, уже 4 года я работаю в команде мобильного приложения Маруси, где мы постоянно стараемся сделать так, чтобы с нашим помощником было удобно и интересно общаться. 

Я несколько раз начинал писать и откладывал этот ретроспективный пост, но потом к нему подключились ребята из нашей команды и помог довести его до публикации. Хочу поблагодарить Влада Голоднюка, старшего программиста, и Пашу Муханова, руководителя мобильной разработки, и рассказать сообществу Хабра о том, как мы отучили Марусю в приложении триггериться на себя и научили правильно слышать и понимать ваши запросы.

Читать далее

Станция Дуо Макс. Как мы создавали первую умную колонку Яндекса с экраном

Время на прочтение9 мин
Количество просмотров28K

Недавно на YaC 2023 мы показали нашу новую колонку — Станцию Дуо Макс. Это первая умная колонка Яндекса с сенсорным экраном и флагман в нашей новой категории устройств. Дуо Макс предложит пользователям как уже знакомые возможности других Станций, так и новые способы взаимодействия с Алисой. 

Под катом — не только подробности об устройстве и наше видение назначения экрана, но и несколько историй разработки. Например, вы узнаете, как экран влияет на акустику устройства и к каким неожиданным изменениям привела возможность повернуть его на 90 градусов. Расскажем про видеозвонки в Telegram и нейросетевой фокус. Ну и закончим пост историей о том, как мы приняли участие в отладке процессора.

Читать далее

ТРИЗ в разговорном дизайне: как находить оптимальные решения при проектировании сложных сценариев

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров3.2K

Я проектирую сценарии голосовых помощников и периодически сталкиваюсь с нетривиальными проблемами. Их решение часто связано с издержками — то диалог получается слишком длинным, то ответ становится неестественным, то пользователь сваливается в бесконечный цикл уточнений и переспросов.

Устранить подобные противоречия помогают приёмы ТРИЗ — теории решения изобретательских задач. Вот только есть проблема: эти приёмы были сформулированы для решения инженерных задач, поэтому их использование в дизайне выглядит неуместным — как можно сделать бота пористым, изменить его агрегатное состояние или привести в колебательное движение?

Меня зовут Кирилл Богатов, я дизайнер разговорных продуктов в KODE. В этой статье я на примерах покажу, как адаптировал ТРИЗ для работы над голосовым навыком для Алисы. Материал будет полезен дизайнерам и любителям мозговых штурмов.

Читать далее

Станция Миди и голосовое управление Zigbee-устройствами без интернета. История разработки

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров39K

Недавно мы представили нашу новую умную колонку — Яндекс Станцию Миди. Она больше, чем Лайт или Мини, поэтому в ней уместились вуфер и два высокочастотных динамика с суммарной мощностью звука 24 Вт. Но при этом она легче и компактнее, чем Станция 2 или Макс. Кроме того, в Миди мы внедрили технологии, которые позволили Алисе научиться новому. В частности, благодаря более современному процессору и бо́льшему объёму оперативной памяти, Алиса в Станции Миди впервые стала понимать и выполнять голосовые команды умного дома локально, без интернета.

Сегодня коротко расскажем, какие задачи пришлось решить команде Алисы и умных устройств, чтобы у пользователей появилась возможность управлять Zigbee-совместимыми устройствами с помощью голоса и не зависеть при этом от удалённого сервера или провайдера.

Что важно: это полезно не только при проблемах со связью. Теперь Zigbee-устройства будут реагировать на команды быстрее даже при наличии хорошего интернета (чуть подробнее — в блоке про замеры скорости в конце поста).

Про локальный умный дом мы впервые заговорили весной этого года. Возможно, вы даже читали на Хабре статью о том, как мы научили наши колонки со встроенным Zigbee-модулем хранить и выполнять сценарии умного дома напрямую, без посредника в виде сервера. Но были ограничения: это работало только для тех сценариев, которые запускались по кнопке или таймеру. Потому что работа с голосовыми командами была доступна только через наше облако. Слишком уж тяжеловесной была это задача для железа. 

Читать далее

Революция от OpenAI — полный обзор: что означают последние анонсы для продуктовой разработки

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров27K

Неделю назад я получил уведомление о начале трансляции первой разработческой конференции от OpenAI. Было неудобно смотреть эфир живьём, так что я уложил детей спать, и ночью, заварив себе какао, с предвкушением открыл YouTube.

Конечно, я к тому времени не выдержал и посмотрел краткие описания анонсов, так что был готов к тому, что увижу, но скажу честно: не смотря на презентацию в стиле студенческих конференций (на финальный слайд (под катом) вообще без слёз не взглянешь), чем дольше я слушал об анонсах, тем больше у меня отвисала челюсть.

Это не просто небольшие улучшения; это действительно скачок вперед. Я слушаю про увеличение длины контекста до 128К, обновлении данных до апреля текущего года, об интеграции в API интерпретатора, нового "рисователя" DALLE-3, анализ изображений, извлечение данных из массивов, безлимитных "ассистентов" и чуть ли не подпрыгиваю на стуле от оживления: решилось огромное количество проблем, которые до этого требовали человеко-месяцы доработки довольно квалифицированной командой.

Как только презентация подходит к концу, я судорожно открываю беклог и начинаю записывать и редактировать идеи. Я уверен, что перед разработчиками открыли действительно большие возможности, которые переопределят способ разработки и восприятия продуктов. И если тема AI вас как минимум интересует и вы ещё и занимаетесь продуктовой разработкой, а перепосченных по 150 раз новостей не хватает понять, что это значит лично для вас и команды, этот обзор будет весьма кстати.

Итак, что нового