Все потоки
Поиск
Написать публикацию
Обновить
6.65

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

Время на прочтение41 мин
Количество просмотров8K

Так уж вышло, что раз в несколько лет мы переписываем сервис, отвечающий за диалоговое взаимодействие в Алисе. В прошлый раз мы распиливали монолит на микросервисы, переходили от концепции интента к концепции сценария и улучшали качество классификации. Этот рефакторинг позволил нам научиться горизонтально масштабироваться, ускорил выпуск фичей и дал возможность существенно улучшить качество работы диалогового движка. На этой инфраструктуре мы жили 5 лет.

Совсем недавно мы начали новый виток развития Алисы: мы хотим поместить в самое сердце (точнее, в самый мозг) нашего диалогового движка большую языковую модель. В этом году мы уже добавили в Алису возможность отвечать с помощью LLM на любые вопросы, а теперь взялись за то, чтобы Алиса стала более универсальной и могла выполнять любые задачи пользователя.

Например, пользователь может сказать: «Алиса, выключи телевизор, когда закончится этот матч». До появления смарт‑функций Алиса ответила бы, что «этого пока не умеет», так как подобной задаче её не обучали. Теперь нейросеть сама разложит запрос на два действия — посмотрит, сколько осталось до конца, и поставит таймер выключения на это время. Или если в запросе будут разного типа задачи, например одна про контент, а другая — про звук, Алиса тоже разложит их на понятные для нее части и выполнит: «Алиса, включи первый фильм на громкости 20».

Дальше я расскажу, как мы это собираемся делать.

Читать далее

Голосовой ассистент на python

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров9.2K

Всем привет, я программист-любитель, изучающий язык python уже многие годы.

Не буду долго тянуть с приветствием и сразу перейду к делу. Этот гайд является по сути пошаговой инструкцией для создания базового кода голосового ассистента, который можно будет потом расширять и дополнять.

Читать

«Я — робот Вертер» или Нулевой закон робототехники

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров11K


В этой статье речь пойдёт не об Азимове и его законах. Великий фантаст не мог предусмотреть всё. А о порочной практике, когда текстовые и голосовые роботы представляются человеческими именами. Или вообще не представляются. Разработчики и собственники таких роботов рассчитывают на то, что люди, собеседники роботов, будут введены в заблуждение, что говорят с человеком. Это даёт небольшой шанс владельцу робота что-то продать или предложить потребителям, сэкономив деньги на зарплате сотруднику колл-центра.

Разберём подробно, как правильно должны представляться роботы и почему это важно.

А также обсудим пути к созданию цивилизованной среды, в которой взаимодействие с роботами будет приносить больше пользы.
Почему же роботы ВСЕГДА должны говорить о том, что они роботы?

Как научить голосовой помощник Алиса рассказывать отзывы выпускников Яндекс Практикума

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.2K

Меня зовут Екатерина Александрова, я интернет‑маркетолог, выпускница курса «Интернет‑маркетолог» и «SMM‑продвижение в Телеграмм», и Станислав Козырев — ведущий инженер‑программист, дата‑аналитик и саентист ЦУНБ им. Некрасова, выпускник курса «Специалист по Data Science».

Наша команда «Проактивные практики», состоящая из пяти увлеченных и энергичных участников, проходит обучение в амбассадорской программе Яндекса. Заключительным этапом программы стала выпускная работа.

Читать далее

Сравнение систем распознавания русского языка 2024

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров5.6K

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

Какая?

Эволюция чат-ботов в Бизнесе: от теории к практике

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.5K

Изначально чат-боты напоминали обычные автоответчики. Бизнес рассматривал их лишь для замены рутинных операций по перенаправлению пользователя с одного оператора на другого.

Первый прорыв случился с распространением в Телеграм «кнопочного интерфейса ботов», который «де-факто» стал стандартом в области текстовых ботов.

Вторым прорывом можно считать распространение систем преобразования голоса в текст (speech to text), благодаря которым появилась возможность взаимодействовать с системами с помощью голосовых команд.

Третий прорыв возник в области искусственного интеллекта (ИИ), боты стали «человечнее» и взаимодействие с ними перешло из разряда «робот» в разряд «помощник».

Читать далее

Особенности фонетики якутского языка для синтеза речи

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров7.4K

Недавно мы закончили проект по синтезу якутского языка. Хотя наши договорённости не позволяют выложить нам модели в общий доступ, какими-то соображениями на тему того, как можно делать синтез якутского языка мы поделиться можем.

Под котом катом вы узнаете:

Как звучит синтез на якутском языке;
Чем отличается якутский алфавит от русского и какие "дополнительные" звуки там есть;
Как работать с ударениями на якутском языке, с учетом полного отсутствия каких-либо корпусов или словарей;
И, в качестве бонуса, как якутский синтез речи говорит на русском с якутским акцентом;

Читать далее

Как Яндекс создал технологию эмоционального синтеза в Алисе

Время на прочтение6 мин
Количество просмотров15K

Уже скоро Алисе исполнится семь лет. К семи годам у людей уже формируется эмпатия: мы начинаем понимать чувства окружающих и осознаем, что эти чувства отражают внутреннее состояние собеседника. 

У Алисы уже давно есть узнаваемые характер и чувство юмора. Но мы хотим, чтобы наш голосовой помощник стал ещё человечнее. Поэтому мы сделали Алису более чуткой: теперь она сопереживает пользователю в трудную минуту, радуется вместе с ним в его счастливые моменты, увлеченно слушает его рассказы и не только. При выборе эмоции она учитывает ситуацию общения, реплику пользователя и текст ответа, который генерирует для нее нейросеть YandexGPT.

Например, сравните следующие фразы, произнесенные обычным и более эмоциональным образом:

Примеры — под катом

Смотрим на обновлённые умные колонки SberBoom

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.8K

6 августа 2024 года команда SberDevices представила умные колонки SberBoom Mini 2 и SberBoom Home. У меня было две недели, чтобы посмотреть их ближе и протестировать. В этой статье делюсь своей оценкой и наблюдениями.

Читать далее

Преодоление языковых барьеров с помощью ИИ

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.3K

Преодоление языковых барьеров с помощью ИИ

В современном мире видеоконтент стал одним из самых мощных инструментов для обмена информацией, обучения и развлечения. Однако для того, чтобы ваш видеоконтент мог достичь максимальной аудитории по всему миру, необходимо преодолеть языковые барьеры. Именно здесь на помощь приходит MerlinClone - сервис, основанный на ии, который позволяет локализовать ваши видео на практически любой язык мира.

Читать далее

Как сделать голосовой интерфейс к LLM

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров7K

В конце февраля на Бали прошел фестиваль Lampu, организованный по принципам знаменитого Burning Man. По его традиции, участники самостоятельно создают инсталляции и арт-объекты.

Мы с друзьями из кемпа 19:19, вдохновившись идеей католических исповедален, придумали сделать свой AI Confession Room, где любой желающий мог бы поговорить с искусственным интеллектом.

Читать далее

Диалекты, зумеры и боты: секреты тестирования NLU-систем

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.2K

Привет, Хабр! Меня зовут Даниил Трублаевич, я занимаюсь тестированием диалоговых систем в компании Just AI. Сегодня сложно отрицать, что боты, голосовые ассистенты и виртуальные помощники стали неотъемлемой частью нашей повседневной жизни. Но, чтобы эти системы были действительно эффективными, они должны не просто распознавать слова и фразы, но и корректно понимать их смысл в различных контекстах.

Тестирование NLU – сложный процесс, так как невозможно точно определить границу полноты тестирования. Для этого и существуют некоторые лайфхаки – правила тестирования, о которых хочется поговорить в этой статье. Материалы разделены на два блока: личный опыт QA-инженера и тестирование при помощи нейросетей. 

Читать далее

Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров4.8K

Мы уже рассказывали про наш детектор голоса на Хабре тут, тут и тутКратко опишу, что стало лучше в этот раз:

Поддержка 6 000+ языков;

Общий рост качества на 5-7%;

Существенно повышена устойчивость на шумных данных;

TorchScript (*) стал в 3 раза быстрее, а ONNX - на 10% (теперь они примерно равны по скорости, обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);

Читать далее

Ближайшие события

Звони первым, если проблема неизбежна. Снижаем contact rate проактивной коммуникацией

Время на прочтение7 мин
Количество просмотров1.9K

Привет, Хабр! Меня зовут Даша Кряжева, я продакт-менеджер, сейчас занимаюсь исходящим голосовым роботом в СберМаркете. С его помощью нам удалось автоматизировать 30% клиентских и партнерских обращений в контактный центр, но это не только про цифры. Проактивная коммуникация — это всегда про повышение лояльности и открытый диалог с пользователями.

Перед нами стоит большая задача: выдерживать нагрузку на службу заботы с сохранением качества обслуживания при стремительном росте бизнеса. В статье расскажу, как этого достичь, а в конце предложу план, чтобы вы могли стартовать проактивные коммуникации в своей компани :)

Читать далее

Из заказной разработки в продуктовую: как мы сделали диалоговую платформу для создания ботов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.1K

Боты бесят многих, но при разумном применении они приносят пользу не только бизнесу, но и клиенту. Например, запишут пациентов к врачу вместо администраторов или найдут нового сотрудника в магазин вместо HR. Хороший бот должен быть приветливым, понимать запросы пользователей на естественном языке, не тупить и быстро решать задачу клиента, поэтому у них «под капотом» сложная и гибкая система.

Привет, Хабр! Меня зовут зовут Анна Гаджимурадова, я менеджер продукта Robovoice. В 2019 году мы начали проектирование платформы по созданию, администрированию и аналитике диалоговых ботов. До этого мы тоже делали ботов, но кастомно, поэтому подстраивались под каждого клиента — это приносило свои плоды, но с изменением бизнес‑процессов клиентам требуются корректировки скриптов, что влечет дополнительные финансовые и временных расходы. В статье расскажу, с какими сложностями мы столкнулись при разработке платформы.

Читать далее

Моя б̶е̶з̶умная колонка: часть вторая // программная

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров18K

Привет, Хабр!

В прошлой статье я описал аппаратную реализацию своего голосового ассистента на базе бюджетного одноплатника Orange Pi Zero 2W с 4Гб оперативной памяти. Эту же статью хочу посвятить программной реализации данного устройства. Если стало интересно, то добро пожаловать под кат.
Читать дальше →

Бот с характером: как образ и персона ботов влияют на клиентов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.2K

Привет, Хабр! Меня зовут Ирина Степанова, я занимаюсь аналитикой разговорных интерфейсов в Just AI. Клиенты часто приходят с запросом на «человекоподобных»‎ ботов, но всем ли они нужны? И как специфика компании влияет на образ голосового помощника или чат-бота? В этой статье расскажу, какие боты пользуются популярностью в финтехе, из чего состоит образ бота и дам несколько рекомендаций по разработке личности виртуального помощника.

Читать далее

Вкалывают роботы, счастлив человек

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.7K

Не знаю, многие ли из здешних обитателей смотрели фильм "Приключения Электроника", но песню, в которой есть слова "вкалывают роботы, счастлив человек", уверен, слышали многие.

Я хорошо эти слова запомнил, укладывая асфальт на 35° жаре в детском садике под эту песню:).

Но тем не менее всегда верил, что роботы будут вкалывать, а человек отдыхать. Но действительность пока не в пользу таких мыслей. Наоборот, роботы не просто не вкалывают, а указывают, что человеку делать.

В пятёрочках видеокамеры с искусственным интеллектом смотрят за тем, чтобы стеллажи были не пусты и в случае недостатка товара указывают людям, куда его положить.

Но недавно набрёл на ещё более интересный проект. https://xn--d1abjl7at.xn--p1ai/case.php?case=2403

Читаем описание проекта и наслаждаемся.

Голосовые технологии позволяют управлять в режиме реального времени всеми складскими операциями - от приемки до отгрузки. В частности, технология позволяет осуществлять комплектацию как штучного, так и весового товара; сборку больших заказов одновременно несколькими комплектовщиками; весовой контроль скомплектованых паллет; обеспечивает автоматическую выдачу комплектовщикам заданий и паллетных ярлыков. Начальник склада формирует состав заказа и загружает его в систему учета (WMS или ERP). В ней заказ переводится в пошаговую инструкцию — например, в какой секции, на каком стеллаже, на какой полке сколько единиц товара нужно взять. Инструкция отправляется на мобильный голосовой терминал, закрепленный на поясе у комплектовщика. Синтезированный голос пошагово выдает команды сотруднику. Комплектовщик выполняет команду и сообщает об этом в микрофон — ГОЛАС выдает ему следующий шаг инструкции. Процесс повторяется, пока заказ не будет полностью укомплектован.

Читать далее

Настройка bluetooth микрофона с шумоподавлением в PipeWire

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров2.9K

В череде дней «длинных» майских праздников решил развернуть голосовой помощник на сервере домашней автоматизации Home Assistant. Мой домашний сервер работает под управлением ОС Ubuntu Server 23.10 и не имеет никаких предустановленных источников или приемников аудио и видео информации. В Ubuntu были установлены аудиосервер PipeWire и менеджер сеансов WirePlumber. Такой выбор был продиктован тем, что эти приложения являются стандартным ПО по обработке аудио и видео потоков в Linux. В сети мне не удалось обнаружить какого-либо полного описания процесса настройки, и эта статья, в некоторой степени, восполняет этот пробел.

Читать далее

Встречайте MajorDom: умный дом будущего, который действительно умён

Время на прочтение11 мин
Количество просмотров20K

В мире умных домов часто приходится выбирать между удобством и функционалом. Раздумывая над тем, каким может быть идеальный умный дом, мы пришли к идее MajorDom — системе, которая стремится изменить этот баланс и упростить быт без жертв. В этом посте поделимся нашим видением и некоторыми основными принципами новой экосистемы, включая приватность, автономность и широкую поддержку устройств.

Читать далее