Как стать автором
Поиск
Написать публикацию
Обновить
4.9

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Эволюция чат-ботов в Бизнесе: от теории к практике

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.4K

Изначально чат-боты напоминали обычные автоответчики. Бизнес рассматривал их лишь для замены рутинных операций по перенаправлению пользователя с одного оператора на другого.

Первый прорыв случился с распространением в Телеграм «кнопочного интерфейса ботов», который «де-факто» стал стандартом в области текстовых ботов.

Вторым прорывом можно считать распространение систем преобразования голоса в текст (speech to text), благодаря которым появилась возможность взаимодействовать с системами с помощью голосовых команд.

Третий прорыв возник в области искусственного интеллекта (ИИ), боты стали «человечнее» и взаимодействие с ними перешло из разряда «робот» в разряд «помощник».

Читать далее

Особенности фонетики якутского языка для синтеза речи

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров7.1K

Недавно мы закончили проект по синтезу якутского языка. Хотя наши договорённости не позволяют выложить нам модели в общий доступ, какими-то соображениями на тему того, как можно делать синтез якутского языка мы поделиться можем.

Под котом катом вы узнаете:

Как звучит синтез на якутском языке;
Чем отличается якутский алфавит от русского и какие "дополнительные" звуки там есть;
Как работать с ударениями на якутском языке, с учетом полного отсутствия каких-либо корпусов или словарей;
И, в качестве бонуса, как якутский синтез речи говорит на русском с якутским акцентом;

Читать далее

Как Яндекс создал технологию эмоционального синтеза в Алисе

Время на прочтение6 мин
Количество просмотров15K

Уже скоро Алисе исполнится семь лет. К семи годам у людей уже формируется эмпатия: мы начинаем понимать чувства окружающих и осознаем, что эти чувства отражают внутреннее состояние собеседника. 

У Алисы уже давно есть узнаваемые характер и чувство юмора. Но мы хотим, чтобы наш голосовой помощник стал ещё человечнее. Поэтому мы сделали Алису более чуткой: теперь она сопереживает пользователю в трудную минуту, радуется вместе с ним в его счастливые моменты, увлеченно слушает его рассказы и не только. При выборе эмоции она учитывает ситуацию общения, реплику пользователя и текст ответа, который генерирует для нее нейросеть YandexGPT.

Например, сравните следующие фразы, произнесенные обычным и более эмоциональным образом:

Примеры — под катом

Смотрим на обновлённые умные колонки SberBoom

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.7K

6 августа 2024 года команда SberDevices представила умные колонки SberBoom Mini 2 и SberBoom Home. У меня было две недели, чтобы посмотреть их ближе и протестировать. В этой статье делюсь своей оценкой и наблюдениями.

Читать далее

Преодоление языковых барьеров с помощью ИИ

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.3K

Преодоление языковых барьеров с помощью ИИ

В современном мире видеоконтент стал одним из самых мощных инструментов для обмена информацией, обучения и развлечения. Однако для того, чтобы ваш видеоконтент мог достичь максимальной аудитории по всему миру, необходимо преодолеть языковые барьеры. Именно здесь на помощь приходит MerlinClone - сервис, основанный на ии, который позволяет локализовать ваши видео на практически любой язык мира.

Читать далее

Как сделать голосовой интерфейс к LLM

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров6.6K

В конце февраля на Бали прошел фестиваль Lampu, организованный по принципам знаменитого Burning Man. По его традиции, участники самостоятельно создают инсталляции и арт-объекты.

Мы с друзьями из кемпа 19:19, вдохновившись идеей католических исповедален, придумали сделать свой AI Confession Room, где любой желающий мог бы поговорить с искусственным интеллектом.

Читать далее

Диалекты, зумеры и боты: секреты тестирования NLU-систем

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.2K

Привет, Хабр! Меня зовут Даниил Трублаевич, я занимаюсь тестированием диалоговых систем в компании Just AI. Сегодня сложно отрицать, что боты, голосовые ассистенты и виртуальные помощники стали неотъемлемой частью нашей повседневной жизни. Но, чтобы эти системы были действительно эффективными, они должны не просто распознавать слова и фразы, но и корректно понимать их смысл в различных контекстах.

Тестирование NLU – сложный процесс, так как невозможно точно определить границу полноты тестирования. Для этого и существуют некоторые лайфхаки – правила тестирования, о которых хочется поговорить в этой статье. Материалы разделены на два блока: личный опыт QA-инженера и тестирование при помощи нейросетей. 

Читать далее

Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров4.5K

Мы уже рассказывали про наш детектор голоса на Хабре тут, тут и тутКратко опишу, что стало лучше в этот раз:

Поддержка 6 000+ языков;

Общий рост качества на 5-7%;

Существенно повышена устойчивость на шумных данных;

TorchScript (*) стал в 3 раза быстрее, а ONNX - на 10% (теперь они примерно равны по скорости, обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);

Читать далее

Звони первым, если проблема неизбежна. Снижаем contact rate проактивной коммуникацией

Время на прочтение7 мин
Количество просмотров1.8K

Привет, Хабр! Меня зовут Даша Кряжева, я продакт-менеджер, сейчас занимаюсь исходящим голосовым роботом в СберМаркете. С его помощью нам удалось автоматизировать 30% клиентских и партнерских обращений в контактный центр, но это не только про цифры. Проактивная коммуникация — это всегда про повышение лояльности и открытый диалог с пользователями.

Перед нами стоит большая задача: выдерживать нагрузку на службу заботы с сохранением качества обслуживания при стремительном росте бизнеса. В статье расскажу, как этого достичь, а в конце предложу план, чтобы вы могли стартовать проактивные коммуникации в своей компани :)

Читать далее

Из заказной разработки в продуктовую: как мы сделали диалоговую платформу для создания ботов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.1K

Боты бесят многих, но при разумном применении они приносят пользу не только бизнесу, но и клиенту. Например, запишут пациентов к врачу вместо администраторов или найдут нового сотрудника в магазин вместо HR. Хороший бот должен быть приветливым, понимать запросы пользователей на естественном языке, не тупить и быстро решать задачу клиента, поэтому у них «под капотом» сложная и гибкая система.

Привет, Хабр! Меня зовут зовут Анна Гаджимурадова, я менеджер продукта Robovoice. В 2019 году мы начали проектирование платформы по созданию, администрированию и аналитике диалоговых ботов. До этого мы тоже делали ботов, но кастомно, поэтому подстраивались под каждого клиента — это приносило свои плоды, но с изменением бизнес‑процессов клиентам требуются корректировки скриптов, что влечет дополнительные финансовые и временных расходы. В статье расскажу, с какими сложностями мы столкнулись при разработке платформы.

Читать далее

Моя б̶е̶з̶умная колонка: часть вторая // программная

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров16K

Привет, Хабр!

В прошлой статье я описал аппаратную реализацию своего голосового ассистента на базе бюджетного одноплатника Orange Pi Zero 2W с 4Гб оперативной памяти. Эту же статью хочу посвятить программной реализации данного устройства. Если стало интересно, то добро пожаловать под кат.
Читать дальше →

Бот с характером: как образ и персона ботов влияют на клиентов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.1K

Привет, Хабр! Меня зовут Ирина Степанова, я занимаюсь аналитикой разговорных интерфейсов в Just AI. Клиенты часто приходят с запросом на «человекоподобных»‎ ботов, но всем ли они нужны? И как специфика компании влияет на образ голосового помощника или чат-бота? В этой статье расскажу, какие боты пользуются популярностью в финтехе, из чего состоит образ бота и дам несколько рекомендаций по разработке личности виртуального помощника.

Читать далее

Вкалывают роботы, счастлив человек

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.7K

Не знаю, многие ли из здешних обитателей смотрели фильм "Приключения Электроника", но песню, в которой есть слова "вкалывают роботы, счастлив человек", уверен, слышали многие.

Я хорошо эти слова запомнил, укладывая асфальт на 35° жаре в детском садике под эту песню:).

Но тем не менее всегда верил, что роботы будут вкалывать, а человек отдыхать. Но действительность пока не в пользу таких мыслей. Наоборот, роботы не просто не вкалывают, а указывают, что человеку делать.

В пятёрочках видеокамеры с искусственным интеллектом смотрят за тем, чтобы стеллажи были не пусты и в случае недостатка товара указывают людям, куда его положить.

Но недавно набрёл на ещё более интересный проект. https://xn--d1abjl7at.xn--p1ai/case.php?case=2403

Читаем описание проекта и наслаждаемся.

Голосовые технологии позволяют управлять в режиме реального времени всеми складскими операциями - от приемки до отгрузки. В частности, технология позволяет осуществлять комплектацию как штучного, так и весового товара; сборку больших заказов одновременно несколькими комплектовщиками; весовой контроль скомплектованых паллет; обеспечивает автоматическую выдачу комплектовщикам заданий и паллетных ярлыков. Начальник склада формирует состав заказа и загружает его в систему учета (WMS или ERP). В ней заказ переводится в пошаговую инструкцию — например, в какой секции, на каком стеллаже, на какой полке сколько единиц товара нужно взять. Инструкция отправляется на мобильный голосовой терминал, закрепленный на поясе у комплектовщика. Синтезированный голос пошагово выдает команды сотруднику. Комплектовщик выполняет команду и сообщает об этом в микрофон — ГОЛАС выдает ему следующий шаг инструкции. Процесс повторяется, пока заказ не будет полностью укомплектован.

Читать далее

Ближайшие события

Настройка bluetooth микрофона с шумоподавлением в PipeWire

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров2.7K

В череде дней «длинных» майских праздников решил развернуть голосовой помощник на сервере домашней автоматизации Home Assistant. Мой домашний сервер работает под управлением ОС Ubuntu Server 23.10 и не имеет никаких предустановленных источников или приемников аудио и видео информации. В Ubuntu были установлены аудиосервер PipeWire и менеджер сеансов WirePlumber. Такой выбор был продиктован тем, что эти приложения являются стандартным ПО по обработке аудио и видео потоков в Linux. В сети мне не удалось обнаружить какого-либо полного описания процесса настройки, и эта статья, в некоторой степени, восполняет этот пробел.

Читать далее

Встречайте MajorDom: умный дом будущего, который действительно умён

Время на прочтение11 мин
Количество просмотров20K

В мире умных домов часто приходится выбирать между удобством и функционалом. Раздумывая над тем, каким может быть идеальный умный дом, мы пришли к идее MajorDom — системе, которая стремится изменить этот баланс и упростить быт без жертв. В этом посте поделимся нашим видением и некоторыми основными принципами новой экосистемы, включая приватность, автономность и широкую поддержку устройств.

Читать далее

Интерактивный NPC на Unreal Engine

Время на прочтение5 мин
Количество просмотров8.5K

Всем привет.

Я хочу с вами поделиться результатами эксперимента по созданию интерактивного NPC на Unreal Engine 5.

Speech recognition, Text-to-speech, LLM модели, LipSync, MetaHuman и все это без использования сторонних сервисов.

Видео работы и ссылка на демо версию прилагается.

Если вам интересно увидеть результат и обсудить перспективы интерактивных NPC в игровой индустрии - добро пожаловать под кат.

Читать далее

Превращаем голосовое сообщение в структурированную заметку

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.2K

Вы когда-нибудь оказывались в ситуации, когда голова была полна идей, но записать их нет возможности? Тогда вы знаете, как бывает сложно быстро и качественно зафиксировать свои мысли. А может вам знакома ситуация, когда собеседник записывает голосовое сообщение на 5 минут с описанием какого-нибудь проекта, и вам приходится переслушивать его снова и снова, чтобы понять все детали. Столкнувшись с этим, я решил сделать Telegram-бота, который может превратить голосовое сообщение в структурированную заметку.

Читать далее

Как правильно написать скрипт для виртуального ассистента

Время на прочтение6 мин
Количество просмотров2K

Здравствуйте! Меня зовут Михаил Абрамов, я работаю техническим писателем в МТС Exolve. Мы разрабатываем и тестируем цифровых ботов на платформе VoiceBox — это конструктор голосовых роботов.

Мы запустили этот проект в 2020 году. Он создавался для бизнеса, наших клиентов, которые хотели автоматизировать рутину, например, подтверждение брони, доставки, адреса и так далее.

Сразу предупрежу возможный негатив: наш сервис можно использовать только для звонков людям, которые готовы к этому звонку. Вы заказали пиццу и робот позвонил, сообщил номер заказа, проговорил все его позиции и время доставки. Словом, полезный робот.

Сегодня расскажу, как можно легко и просто разрабатывать скрипты звонков в графическом интерфейсе нашего конструктора.

Читать далее

Как написать ТЗ на разработку чат-бота или AI-ассистента

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров9.9K

 Привет, Хабр! Меня зовут Элина Тедеева, и я тимлид команды внедрения в команде Just AI. 

В идеальном мире разработка бота или голосового ассистента начинается с технического задания — именно оно должно определять все этапы: от идеи до реализации. О том, почему ТЗ нельзя пренебрегать, как его грамотно составить и какие подводные камни могут встретиться в процессе, я расскажу в этой статье.

Читать далее

Робот, ты нелюдь! Статья, которая ничего не изменит

Время на прочтение5 мин
Количество просмотров6.6K

Я хорошо помню начало бума IVR в России: с появлением доступной IP-телефонии компании бросились заказывать и самостоятельно проектировать схемы голосовых меню. Казалось, найдена таблетка от всего: можно сокращать размер колл-центров, экономить время сотрудников и клиентов, не переживать за то, что клиент интроверт и изольёт свою боль на голову несчастного менеджера. А главное, стоит копейки! Но шло время и тропа технологической эволюции пошла туда же, куда и биологической: видовое разнообразие и освоение территорий. В общем, задолбали эти роботы! Но почему-то они продолжают оставаться в слепой зоне компаний, так активно ратующих за идеальный сервис.

Читать далее