Как стать автором
Обновить
5.95

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Как научить голосовой помощник Алиса рассказывать отзывы выпускников Яндекс Практикума

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.6K

Меня зовут Екатерина Александрова, я интернет‑маркетолог, выпускница курса «Интернет‑маркетолог» и «SMM‑продвижение в Телеграмм», и Станислав Козырев — ведущий инженер‑программист, дата‑аналитик и саентист ЦУНБ им. Некрасова, выпускник курса «Специалист по Data Science».

Наша команда «Проактивные практики», состоящая из пяти увлеченных и энергичных участников, проходит обучение в амбассадорской программе Яндекса. Заключительным этапом программы стала выпускная работа.

Читать далее
Всего голосов 8: ↑3 и ↓50
Комментарии3

Новости

Сравнение систем распознавания русского языка 2024

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров2.9K

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

Какая?
Всего голосов 15: ↑11 и ↓4+10
Комментарии15

Эволюция чат-ботов в Бизнесе: от теории к практике

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.1K

Изначально чат-боты напоминали обычные автоответчики. Бизнес рассматривал их лишь для замены рутинных операций по перенаправлению пользователя с одного оператора на другого.

Первый прорыв случился с распространением в Телеграм «кнопочного интерфейса ботов», который «де-факто» стал стандартом в области текстовых ботов.

Вторым прорывом можно считать распространение систем преобразования голоса в текст (speech to text), благодаря которым появилась возможность взаимодействовать с системами с помощью голосовых команд.

Третий прорыв возник в области искусственного интеллекта (ИИ), боты стали «человечнее» и взаимодействие с ними перешло из разряда «робот» в разряд «помощник».

Читать далее
Всего голосов 5: ↑3 и ↓2+5
Комментарии2

Особенности фонетики якутского языка для синтеза речи

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров6K

Недавно мы закончили проект по синтезу якутского языка. Хотя наши договорённости не позволяют выложить нам модели в общий доступ, какими-то соображениями на тему того, как можно делать синтез якутского языка мы поделиться можем.

Под котом катом вы узнаете:

Как звучит синтез на якутском языке;
Чем отличается якутский алфавит от русского и какие "дополнительные" звуки там есть;
Как работать с ударениями на якутском языке, с учетом полного отсутствия каких-либо корпусов или словарей;
И, в качестве бонуса, как якутский синтез речи говорит на русском с якутским акцентом;

Читать далее
Всего голосов 38: ↑37 и ↓1+45
Комментарии20

Истории

Как Яндекс создал технологию эмоционального синтеза в Алисе

Время на прочтение6 мин
Количество просмотров14K

Уже скоро Алисе исполнится семь лет. К семи годам у людей уже формируется эмпатия: мы начинаем понимать чувства окружающих и осознаем, что эти чувства отражают внутреннее состояние собеседника. 

У Алисы уже давно есть узнаваемые характер и чувство юмора. Но мы хотим, чтобы наш голосовой помощник стал ещё человечнее. Поэтому мы сделали Алису более чуткой: теперь она сопереживает пользователю в трудную минуту, радуется вместе с ним в его счастливые моменты, увлеченно слушает его рассказы и не только. При выборе эмоции она учитывает ситуацию общения, реплику пользователя и текст ответа, который генерирует для нее нейросеть YandexGPT.

Например, сравните следующие фразы, произнесенные обычным и более эмоциональным образом:

Примеры — под катом
Всего голосов 36: ↑35 и ↓1+42
Комментарии19

Смотрим на обновлённые умные колонки SberBoom

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.7K

6 августа 2024 года команда SberDevices представила умные колонки SberBoom Mini 2 и SberBoom Home. У меня было две недели, чтобы посмотреть их ближе и протестировать. В этой статье делюсь своей оценкой и наблюдениями.

Читать далее
Всего голосов 9: ↑5 и ↓4+8
Комментарии4

Преодоление языковых барьеров с помощью ИИ

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.2K

Преодоление языковых барьеров с помощью ИИ

В современном мире видеоконтент стал одним из самых мощных инструментов для обмена информацией, обучения и развлечения. Однако для того, чтобы ваш видеоконтент мог достичь максимальной аудитории по всему миру, необходимо преодолеть языковые барьеры. Именно здесь на помощь приходит MerlinClone - сервис, основанный на ии, который позволяет локализовать ваши видео на практически любой язык мира.

Читать далее
Всего голосов 9: ↑4 и ↓5+1
Комментарии6

Как сделать голосовой интерфейс к LLM

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров4.8K

В конце февраля на Бали прошел фестиваль Lampu, организованный по принципам знаменитого Burning Man. По его традиции, участники самостоятельно создают инсталляции и арт-объекты.

Мы с друзьями из кемпа 19:19, вдохновившись идеей католических исповедален, придумали сделать свой AI Confession Room, где любой желающий мог бы поговорить с искусственным интеллектом.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии7

Диалекты, зумеры и боты: секреты тестирования NLU-систем

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров920

Привет, Хабр! Меня зовут Даниил Трублаевич, я занимаюсь тестированием диалоговых систем в компании Just AI. Сегодня сложно отрицать, что боты, голосовые ассистенты и виртуальные помощники стали неотъемлемой частью нашей повседневной жизни. Но, чтобы эти системы были действительно эффективными, они должны не просто распознавать слова и фразы, но и корректно понимать их смысл в различных контекстах.

Тестирование NLU – сложный процесс, так как невозможно точно определить границу полноты тестирования. Для этого и существуют некоторые лайфхаки – правила тестирования, о которых хочется поговорить в этой статье. Материалы разделены на два блока: личный опыт QA-инженера и тестирование при помощи нейросетей. 

Читать далее
Всего голосов 5: ↑4 и ↓1+4
Комментарии3

Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров3.6K

Мы уже рассказывали про наш детектор голоса на Хабре тут, тут и тутКратко опишу, что стало лучше в этот раз:

Поддержка 6 000+ языков;

Общий рост качества на 5-7%;

Существенно повышена устойчивость на шумных данных;

TorchScript (*) стал в 3 раза быстрее, а ONNX - на 10% (теперь они примерно равны по скорости, обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);

Читать далее
Всего голосов 17: ↑17 и ↓0+24
Комментарии1

Звони первым, если проблема неизбежна. Снижаем contact rate проактивной коммуникацией

Время на прочтение7 мин
Количество просмотров1.6K

Привет, Хабр! Меня зовут Даша Кряжева, я продакт-менеджер, сейчас занимаюсь исходящим голосовым роботом в СберМаркете. С его помощью нам удалось автоматизировать 30% клиентских и партнерских обращений в контактный центр, но это не только про цифры. Проактивная коммуникация — это всегда про повышение лояльности и открытый диалог с пользователями.

Перед нами стоит большая задача: выдерживать нагрузку на службу заботы с сохранением качества обслуживания при стремительном росте бизнеса. В статье расскажу, как этого достичь, а в конце предложу план, чтобы вы могли стартовать проактивные коммуникации в своей компани :)

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии0

Из заказной разработки в продуктовую: как мы сделали диалоговую платформу для создания ботов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров996

Боты бесят многих, но при разумном применении они приносят пользу не только бизнесу, но и клиенту. Например, запишут пациентов к врачу вместо администраторов или найдут нового сотрудника в магазин вместо HR. Хороший бот должен быть приветливым, понимать запросы пользователей на естественном языке, не тупить и быстро решать задачу клиента, поэтому у них «под капотом» сложная и гибкая система.

Привет, Хабр! Меня зовут зовут Анна Гаджимурадова, я менеджер продукта Robovoice. В 2019 году мы начали проектирование платформы по созданию, администрированию и аналитике диалоговых ботов. До этого мы тоже делали ботов, но кастомно, поэтому подстраивались под каждого клиента — это приносило свои плоды, но с изменением бизнес‑процессов клиентам требуются корректировки скриптов, что влечет дополнительные финансовые и временных расходы. В статье расскажу, с какими сложностями мы столкнулись при разработке платформы.

Читать далее
Всего голосов 4: ↑4 и ↓0+5
Комментарии0

Моя б̶е̶з̶умная колонка: часть вторая // программная

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров9K

Привет, Хабр!

В прошлой статье я описал аппаратную реализацию своего голосового ассистента на базе бюджетного одноплатника Orange Pi Zero 2W с 4Гб оперативной памяти. Эту же статью хочу посвятить программной реализации данного устройства. Если стало интересно, то добро пожаловать под кат.
Читать дальше →
Всего голосов 40: ↑40 и ↓0+53
Комментарии31

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

Бот с характером: как образ и персона ботов влияют на клиентов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1K

Привет, Хабр! Меня зовут Ирина Степанова, я занимаюсь аналитикой разговорных интерфейсов в Just AI. Клиенты часто приходят с запросом на «человекоподобных»‎ ботов, но всем ли они нужны? И как специфика компании влияет на образ голосового помощника или чат-бота? В этой статье расскажу, какие боты пользуются популярностью в финтехе, из чего состоит образ бота и дам несколько рекомендаций по разработке личности виртуального помощника.

Читать далее
Всего голосов 6: ↑3 и ↓3+2
Комментарии7

Вкалывают роботы, счастлив человек

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.6K

Не знаю, многие ли из здешних обитателей смотрели фильм "Приключения Электроника", но песню, в которой есть слова "вкалывают роботы, счастлив человек", уверен, слышали многие.

Я хорошо эти слова запомнил, укладывая асфальт на 35° жаре в детском садике под эту песню:).

Но тем не менее всегда верил, что роботы будут вкалывать, а человек отдыхать. Но действительность пока не в пользу таких мыслей. Наоборот, роботы не просто не вкалывают, а указывают, что человеку делать.

В пятёрочках видеокамеры с искусственным интеллектом смотрят за тем, чтобы стеллажи были не пусты и в случае недостатка товара указывают людям, куда его положить.

Но недавно набрёл на ещё более интересный проект. https://xn--d1abjl7at.xn--p1ai/case.php?case=2403

Читаем описание проекта и наслаждаемся.

Голосовые технологии позволяют управлять в режиме реального времени всеми складскими операциями - от приемки до отгрузки. В частности, технология позволяет осуществлять комплектацию как штучного, так и весового товара; сборку больших заказов одновременно несколькими комплектовщиками; весовой контроль скомплектованых паллет; обеспечивает автоматическую выдачу комплектовщикам заданий и паллетных ярлыков. Начальник склада формирует состав заказа и загружает его в систему учета (WMS или ERP). В ней заказ переводится в пошаговую инструкцию — например, в какой секции, на каком стеллаже, на какой полке сколько единиц товара нужно взять. Инструкция отправляется на мобильный голосовой терминал, закрепленный на поясе у комплектовщика. Синтезированный голос пошагово выдает команды сотруднику. Комплектовщик выполняет команду и сообщает об этом в микрофон — ГОЛАС выдает ему следующий шаг инструкции. Процесс повторяется, пока заказ не будет полностью укомплектован.

Читать далее
Всего голосов 19: ↑13 и ↓6+11
Комментарии50

Настройка bluetooth микрофона с шумоподавлением в PipeWire

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.9K

В череде дней «длинных» майских праздников решил развернуть голосовой помощник на сервере домашней автоматизации Home Assistant. Мой домашний сервер работает под управлением ОС Ubuntu Server 23.10 и не имеет никаких предустановленных источников или приемников аудио и видео информации. В Ubuntu были установлены аудиосервер PipeWire и менеджер сеансов WirePlumber. Такой выбор был продиктован тем, что эти приложения являются стандартным ПО по обработке аудио и видео потоков в Linux. В сети мне не удалось обнаружить какого-либо полного описания процесса настройки, и эта статья, в некоторой степени, восполняет этот пробел.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии2

Встречайте MajorDom: умный дом будущего, который действительно умён

Время на прочтение11 мин
Количество просмотров19K

В мире умных домов часто приходится выбирать между удобством и функционалом. Раздумывая над тем, каким может быть идеальный умный дом, мы пришли к идее MajorDom — системе, которая стремится изменить этот баланс и упростить быт без жертв. В этом посте поделимся нашим видением и некоторыми основными принципами новой экосистемы, включая приватность, автономность и широкую поддержку устройств.

Читать далее
Всего голосов 21: ↑10 и ↓11+3
Комментарии45

Интерактивный NPC на Unreal Engine

Время на прочтение5 мин
Количество просмотров7.6K

Всем привет.

Я хочу с вами поделиться результатами эксперимента по созданию интерактивного NPC на Unreal Engine 5.

Speech recognition, Text-to-speech, LLM модели, LipSync, MetaHuman и все это без использования сторонних сервисов.

Видео работы и ссылка на демо версию прилагается.

Если вам интересно увидеть результат и обсудить перспективы интерактивных NPC в игровой индустрии - добро пожаловать под кат.

Читать далее
Всего голосов 19: ↑19 и ↓0+20
Комментарии26

Превращаем голосовое сообщение в структурированную заметку

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2K

Вы когда-нибудь оказывались в ситуации, когда голова была полна идей, но записать их нет возможности? Тогда вы знаете, как бывает сложно быстро и качественно зафиксировать свои мысли. А может вам знакома ситуация, когда собеседник записывает голосовое сообщение на 5 минут с описанием какого-нибудь проекта, и вам приходится переслушивать его снова и снова, чтобы понять все детали. Столкнувшись с этим, я решил сделать Telegram-бота, который может превратить голосовое сообщение в структурированную заметку.

Читать далее
Всего голосов 6: ↑0 и ↓6-6
Комментарии3

Как правильно написать скрипт для виртуального ассистента

Время на прочтение6 мин
Количество просмотров1.7K

Здравствуйте! Меня зовут Михаил Абрамов, я работаю техническим писателем в МТС Exolve. Мы разрабатываем и тестируем цифровых ботов на платформе VoiceBox — это конструктор голосовых роботов.

Мы запустили этот проект в 2020 году. Он создавался для бизнеса, наших клиентов, которые хотели автоматизировать рутину, например, подтверждение брони, доставки, адреса и так далее.

Сразу предупрежу возможный негатив: наш сервис можно использовать только для звонков людям, которые готовы к этому звонку. Вы заказали пиццу и робот позвонил, сообщил номер заказа, проговорил все его позиции и время доставки. Словом, полезный робот.

Сегодня расскажу, как можно легко и просто разрабатывать скрипты звонков в графическом интерфейсе нашего конструктора.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии1
1
23 ...