Обновить
44.61

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

«Я — робот Вертер» или Нулевой закон робототехники

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели6.7K


В этой статье речь пойдёт не об Азимове и его законах. Великий фантаст не мог предусмотреть всё. А о порочной практике, когда текстовые и голосовые роботы представляются человеческими именами. Или вообще не представляются. Разработчики и собственники таких роботов рассчитывают на то, что люди, собеседники роботов, будут введены в заблуждение, что говорят с человеком. Это даёт небольшой шанс владельцу робота что-то продать или предложить потребителям, сэкономив деньги на зарплате сотруднику колл-центра.

Разберём подробно, как правильно должны представляться роботы и почему это важно.

А также обсудим пути к созданию цивилизованной среды, в которой взаимодействие с роботами будет приносить больше пользы.
Почему же роботы ВСЕГДА должны говорить о том, что они роботы?

Как научить голосовой помощник Алиса рассказывать отзывы выпускников Яндекс Практикума

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели2.5K

Меня зовут Екатерина Александрова, я интернет‑маркетолог, выпускница курса «Интернет‑маркетолог» и «SMM‑продвижение в Телеграмм», и Станислав Козырев — ведущий инженер‑программист, дата‑аналитик и саентист ЦУНБ им. Некрасова, выпускник курса «Специалист по Data Science».

Наша команда «Проактивные практики», состоящая из пяти увлеченных и энергичных участников, проходит обучение в амбассадорской программе Яндекса. Заключительным этапом программы стала выпускная работа.

Читать далее

Сравнение систем распознавания русского языка 2024

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели3.9K

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

Какая?

Эволюция чат-ботов в Бизнесе: от теории к практике

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели908

Изначально чат-боты напоминали обычные автоответчики. Бизнес рассматривал их лишь для замены рутинных операций по перенаправлению пользователя с одного оператора на другого.

Первый прорыв случился с распространением в Телеграм «кнопочного интерфейса ботов», который «де-факто» стал стандартом в области текстовых ботов.

Вторым прорывом можно считать распространение систем преобразования голоса в текст (speech to text), благодаря которым появилась возможность взаимодействовать с системами с помощью голосовых команд.

Третий прорыв возник в области искусственного интеллекта (ИИ), боты стали «человечнее» и взаимодействие с ними перешло из разряда «робот» в разряд «помощник».

Читать далее

Особенности фонетики якутского языка для синтеза речи

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели5.5K

Недавно мы закончили проект по синтезу якутского языка. Хотя наши договорённости не позволяют выложить нам модели в общий доступ, какими-то соображениями на тему того, как можно делать синтез якутского языка мы поделиться можем.

Под котом катом вы узнаете:

Как звучит синтез на якутском языке;
Чем отличается якутский алфавит от русского и какие "дополнительные" звуки там есть;
Как работать с ударениями на якутском языке, с учетом полного отсутствия каких-либо корпусов или словарей;
И, в качестве бонуса, как якутский синтез речи говорит на русском с якутским акцентом;

Читать далее

Как Яндекс создал технологию эмоционального синтеза в Алисе

Время на прочтение6 мин
Охват и читатели11K

Уже скоро Алисе исполнится семь лет. К семи годам у людей уже формируется эмпатия: мы начинаем понимать чувства окружающих и осознаем, что эти чувства отражают внутреннее состояние собеседника. 

У Алисы уже давно есть узнаваемые характер и чувство юмора. Но мы хотим, чтобы наш голосовой помощник стал ещё человечнее. Поэтому мы сделали Алису более чуткой: теперь она сопереживает пользователю в трудную минуту, радуется вместе с ним в его счастливые моменты, увлеченно слушает его рассказы и не только. При выборе эмоции она учитывает ситуацию общения, реплику пользователя и текст ответа, который генерирует для нее нейросеть YandexGPT.

Например, сравните следующие фразы, произнесенные обычным и более эмоциональным образом:

Примеры — под катом

Смотрим на обновлённые умные колонки SberBoom

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели2.1K

6 августа 2024 года команда SberDevices представила умные колонки SberBoom Mini 2 и SberBoom Home. У меня было две недели, чтобы посмотреть их ближе и протестировать. В этой статье делюсь своей оценкой и наблюдениями.

Читать далее

Преодоление языковых барьеров с помощью ИИ

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели828

Преодоление языковых барьеров с помощью ИИ

В современном мире видеоконтент стал одним из самых мощных инструментов для обмена информацией, обучения и развлечения. Однако для того, чтобы ваш видеоконтент мог достичь максимальной аудитории по всему миру, необходимо преодолеть языковые барьеры. Именно здесь на помощь приходит MerlinClone - сервис, основанный на ии, который позволяет локализовать ваши видео на практически любой язык мира.

Читать далее

Как сделать голосовой интерфейс к LLM

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.4K

В конце февраля на Бали прошел фестиваль Lampu, организованный по принципам знаменитого Burning Man. По его традиции, участники самостоятельно создают инсталляции и арт-объекты.

Мы с друзьями из кемпа 19:19, вдохновившись идеей католических исповедален, придумали сделать свой AI Confession Room, где любой желающий мог бы поговорить с искусственным интеллектом.

Читать далее

Диалекты, зумеры и боты: секреты тестирования NLU-систем

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели948

Привет, Хабр! Меня зовут Даниил Трублаевич, я занимаюсь тестированием диалоговых систем в компании Just AI. Сегодня сложно отрицать, что боты, голосовые ассистенты и виртуальные помощники стали неотъемлемой частью нашей повседневной жизни. Но, чтобы эти системы были действительно эффективными, они должны не просто распознавать слова и фразы, но и корректно понимать их смысл в различных контекстах.

Тестирование NLU – сложный процесс, так как невозможно точно определить границу полноты тестирования. Для этого и существуют некоторые лайфхаки – правила тестирования, о которых хочется поговорить в этой статье. Материалы разделены на два блока: личный опыт QA-инженера и тестирование при помощи нейросетей. 

Читать далее

Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках

Уровень сложностиПростой
Время на прочтение1 мин
Охват и читатели3.7K

Мы уже рассказывали про наш детектор голоса на Хабре тут, тут и тутКратко опишу, что стало лучше в этот раз:

Поддержка 6 000+ языков;

Общий рост качества на 5-7%;

Существенно повышена устойчивость на шумных данных;

TorchScript (*) стал в 3 раза быстрее, а ONNX - на 10% (теперь они примерно равны по скорости, обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);

Читать далее

Звони первым, если проблема неизбежна. Снижаем contact rate проактивной коммуникацией

Время на прочтение7 мин
Охват и читатели1.5K

Привет, Хабр! Меня зовут Даша Кряжева, я продакт-менеджер, сейчас занимаюсь исходящим голосовым роботом в СберМаркете. С его помощью нам удалось автоматизировать 30% клиентских и партнерских обращений в контактный центр, но это не только про цифры. Проактивная коммуникация — это всегда про повышение лояльности и открытый диалог с пользователями.

Перед нами стоит большая задача: выдерживать нагрузку на службу заботы с сохранением качества обслуживания при стремительном росте бизнеса. В статье расскажу, как этого достичь, а в конце предложу план, чтобы вы могли стартовать проактивные коммуникации в своей компани :)

Читать далее

Из заказной разработки в продуктовую: как мы сделали диалоговую платформу для создания ботов

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели879

Боты бесят многих, но при разумном применении они приносят пользу не только бизнесу, но и клиенту. Например, запишут пациентов к врачу вместо администраторов или найдут нового сотрудника в магазин вместо HR. Хороший бот должен быть приветливым, понимать запросы пользователей на естественном языке, не тупить и быстро решать задачу клиента, поэтому у них «под капотом» сложная и гибкая система.

Привет, Хабр! Меня зовут зовут Анна Гаджимурадова, я менеджер продукта Robovoice. В 2019 году мы начали проектирование платформы по созданию, администрированию и аналитике диалоговых ботов. До этого мы тоже делали ботов, но кастомно, поэтому подстраивались под каждого клиента — это приносило свои плоды, но с изменением бизнес‑процессов клиентам требуются корректировки скриптов, что влечет дополнительные финансовые и временных расходы. В статье расскажу, с какими сложностями мы столкнулись при разработке платформы.

Читать далее

Ближайшие события

Моя б̶е̶з̶умная колонка: часть вторая // программная

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели11K

Привет, Хабр!

В прошлой статье я описал аппаратную реализацию своего голосового ассистента на базе бюджетного одноплатника Orange Pi Zero 2W с 4Гб оперативной памяти. Эту же статью хочу посвятить программной реализации данного устройства. Если стало интересно, то добро пожаловать под кат.
Читать дальше →

Бот с характером: как образ и персона ботов влияют на клиентов

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели900

Привет, Хабр! Меня зовут Ирина Степанова, я занимаюсь аналитикой разговорных интерфейсов в Just AI. Клиенты часто приходят с запросом на «человекоподобных»‎ ботов, но всем ли они нужны? И как специфика компании влияет на образ голосового помощника или чат-бота? В этой статье расскажу, какие боты пользуются популярностью в финтехе, из чего состоит образ бота и дам несколько рекомендаций по разработке личности виртуального помощника.

Читать далее

Вкалывают роботы, счастлив человек

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели2.3K

Не знаю, многие ли из здешних обитателей смотрели фильм "Приключения Электроника", но песню, в которой есть слова "вкалывают роботы, счастлив человек", уверен, слышали многие.

Я хорошо эти слова запомнил, укладывая асфальт на 35° жаре в детском садике под эту песню:).

Но тем не менее всегда верил, что роботы будут вкалывать, а человек отдыхать. Но действительность пока не в пользу таких мыслей. Наоборот, роботы не просто не вкалывают, а указывают, что человеку делать.

В пятёрочках видеокамеры с искусственным интеллектом смотрят за тем, чтобы стеллажи были не пусты и в случае недостатка товара указывают людям, куда его положить.

Но недавно набрёл на ещё более интересный проект. https://xn--d1abjl7at.xn--p1ai/case.php?case=2403

Читаем описание проекта и наслаждаемся.

Голосовые технологии позволяют управлять в режиме реального времени всеми складскими операциями - от приемки до отгрузки. В частности, технология позволяет осуществлять комплектацию как штучного, так и весового товара; сборку больших заказов одновременно несколькими комплектовщиками; весовой контроль скомплектованых паллет; обеспечивает автоматическую выдачу комплектовщикам заданий и паллетных ярлыков. Начальник склада формирует состав заказа и загружает его в систему учета (WMS или ERP). В ней заказ переводится в пошаговую инструкцию — например, в какой секции, на каком стеллаже, на какой полке сколько единиц товара нужно взять. Инструкция отправляется на мобильный голосовой терминал, закрепленный на поясе у комплектовщика. Синтезированный голос пошагово выдает команды сотруднику. Комплектовщик выполняет команду и сообщает об этом в микрофон — ГОЛАС выдает ему следующий шаг инструкции. Процесс повторяется, пока заказ не будет полностью укомплектован.

Читать далее

Настройка bluetooth микрофона с шумоподавлением в PipeWire

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели4.4K

В череде дней «длинных» майских праздников решил развернуть голосовой помощник на сервере домашней автоматизации Home Assistant. Мой домашний сервер работает под управлением ОС Ubuntu Server 23.10 и не имеет никаких предустановленных источников или приемников аудио и видео информации. В Ubuntu были установлены аудиосервер PipeWire и менеджер сеансов WirePlumber. Такой выбор был продиктован тем, что эти приложения являются стандартным ПО по обработке аудио и видео потоков в Linux. В сети мне не удалось обнаружить какого-либо полного описания процесса настройки, и эта статья, в некоторой степени, восполняет этот пробел.

Читать далее

Встречайте MajorDom: умный дом будущего, который действительно умён

Время на прочтение11 мин
Охват и читатели23K

В мире умных домов часто приходится выбирать между удобством и функционалом. Раздумывая над тем, каким может быть идеальный умный дом, мы пришли к идее MajorDom — системе, которая стремится изменить этот баланс и упростить быт без жертв. В этом посте поделимся нашим видением и некоторыми основными принципами новой экосистемы, включая приватность, автономность и широкую поддержку устройств.

Читать далее

Интерактивный NPC на Unreal Engine

Время на прочтение5 мин
Охват и читатели10K

Всем привет.

Я хочу с вами поделиться результатами эксперимента по созданию интерактивного NPC на Unreal Engine 5.

Speech recognition, Text-to-speech, LLM модели, LipSync, MetaHuman и все это без использования сторонних сервисов.

Видео работы и ссылка на демо версию прилагается.

Если вам интересно увидеть результат и обсудить перспективы интерактивных NPC в игровой индустрии - добро пожаловать под кат.

Читать далее

Превращаем голосовое сообщение в структурированную заметку

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели2.7K

Вы когда-нибудь оказывались в ситуации, когда голова была полна идей, но записать их нет возможности? Тогда вы знаете, как бывает сложно быстро и качественно зафиксировать свои мысли. А может вам знакома ситуация, когда собеседник записывает голосовое сообщение на 5 минут с описанием какого-нибудь проекта, и вам приходится переслушивать его снова и снова, чтобы понять все детали. Столкнувшись с этим, я решил сделать Telegram-бота, который может превратить голосовое сообщение в структурированную заметку.

Читать далее