Все потоки
Поиск
Написать публикацию
Обновить
5.88

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Как можно запустить MVP личного кабинета в WhatsApp и получить новый инструмент для проверки гипотез

Время на прочтение5 мин
Количество просмотров1.7K

Всем привет, меня зовут Майя и я аналитик в «Ренессанс страхование», команда цифровых каналов коммуникаций. 

В 2020-м многие развивали онлайн-сервисы и мы тоже максимально оцифровывались и запускали новые сервисы, в том числе в мессенджерах. Основным мессенджером для нас стал WhatsApp с бизнес-аккаунтом WhatsApp Business API. Именно в нем мы успешно запустили MVP личного кабинета к новой бонусной программе. Расскажу каким стеком воспользовались и какие результаты запуска получили.

Читать далее

Навык для Алисы «Проведи стендап»

Время на прочтение3 мин
Количество просмотров3.9K

Никогда вам не хотелось автоматизировать проведение стенд апа? В статье я расскажу о своей попытке это сделать.

Читать далее

Яндекс научил Алису принимать платежи за онлайн-покупки. Девочка созрела?

Время на прочтение3 мин
Количество просмотров3.9K

"Яндекс" с каждым днем делает все более интересные (заметьте, мы не рискуем говорить - уверенные) шаги в сторону развития своих торговых платформ. И все чаще напоминает собой российский Amazon замедленного действия.

Настал светлый час, "Алиса" созрела и родители доверили ей первые карманные деньги. Точнее научили ими пользоваться, а вот сами деньги, конечно, "Алиса" будет брать у покупателей. Это хоть и робкий, но серьезный шаг. Учитывая, что "Яндекс" изо всех сил вытащить свой Маркет на передовую, новая функция может ему в этом помощь. В будущем.

Мы узнали подробности и подсмотрели за спросом на умные колонки от Яндекса на российских маркетплейсах.

Читать далее

Ультимативное сравнение систем распознавания речи: Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

Время на прочтение8 мин
Количество просмотров23K

sandwich_fake


Какое-то время назад мы писали цикл статей про то, как правильно измерять качество систем распознавания речи, и собственно снимали метрики с доступных решений (цикл статей — 1, 2, 3) (на тот момент и коммерческих и некоммерческих решений). На Хабре была выжимка из этого цикла в рамках этой статьи, но до масштабного обновления исследования, достойного публикации на Хабре, руки никак не доходили (это требует как минимум большого количества усилий и подготовки).


Прошло некоторое время и пора обновить наше исследование, сделав его по-настоящему ультимативным. По сравнению с прошлыми исследованиями изменилось или добавилось следующее:


  • Добавилось много валидационных сетов из разных реальных доменов;
  • На рынок вышел Сбер, в первую очередь интересно протестировать именно его;
  • Для чистоты эксперимента, мы не предупреждали разработчиков систем о доменах и факте проведения тестов;
  • Мы также попробовали немного протестировать пропускную способность сервисов (понятно, что мы не знаем какое железо и ограничения стоят в облаке);
  • Мы рассматриваем только коммерческие системы, к которым у нас получилось получить доступ и которые показали хоть какой-то намек на "всеядность", работу с холодного старта и "энтерпрайзность";
Читать дальше →

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

Время на прочтение6 мин
Количество просмотров20K


Меня зовут Саша, в SberDevices я занимаюсь системой распознавания речи и тем, как данные могут сделать её лучше. В этой статье я расскажу о новом речевом датасете Golos, который состоит из аудиофайлов и соответствующих транскрипций. Общая длительность записей составляет примерно 1240 часов, частота дискретизации – 16кГц. На текущий момент это самый большой корпус аудиозаписей на русском языке, размеченный вручную. Мы выпустили корпус под лицензией, близкой к CC Attribution ShareAlike, что позволяет его использовать как для научных исследований, так и в коммерческих целях. Я расскажу о том, из чего состоит датасет, каким образом он был собран и каких результатов позволяет достичь.
Читать дальше →

Как адаптировать языковые модели Kaldi? (со смешными животными)

Время на прочтение14 мин
Количество просмотров12K


«Как научить русскоязычную модель распознавать речь геймеров?» Подобными вопросами задаются те, кто увлекается и занимается NLP. В частности, NLP-специалистов интересует, как можно адаптировать модель Kaldi под свою предметную область, чтобы улучшить качество распознавания. Это мы и разберём в данной статье.
Читать дальше →

Автоматизация, безопасность, онлайн-знакомства: для чего еще используют голосовые технологии в 2021 году

Время на прочтение3 мин
Количество просмотров1.8K

Голосовые интерфейсы и форматы общения сейчас переживают новый виток популярности благодаря активно развивающимся технологиям распознавания речи и обработки естественного языка (NLP). Ведущие технологические компании одна за другой выпускают голосовых ассистентов, системы безопасности оборудуются биометрическими компонентами, а рынок подкастов постоянно растет. Но обо всем по порядку. 

Читать далее

Все, что вы хотели знать про диалоговый UX/UI в проектировании чат-ботов

Время на прочтение8 мин
Количество просмотров12K

Читайте в статье: что такое диалоговый UX/UI и как его создавать, а также полезные лайфхаки при проектировании сценария для чат-бота. 

В этой статье мы поделимся выстраданными на собственном опыте советами по проектированию чат-ботов и голосовых помощников, а также полезными лайфхаками при создании сценариев. И конечно, расскажем, как сделать пользовательский опыт в диалоговых сервисах максимально комфортным для пользователя. 

Мы будем двигаться от самого простого к сложному. Если знаете азы — сразу листайте к блоку для продвинутых пользователей.

Читать далее

Не только Clubhouse: распознавание речи, подкасты, голосовые знакомства и соцсети

Время на прочтение2 мин
Количество просмотров3.3K

Огромную популярность соцсети Clubhouse можно объяснять по-разному: от удачного времени запуска (во время пандемии) до ее элитарного характера (система инвайтов, нет записи трансляций, до недавнего времени была версия только для iOS). Но одно можно сказать наверняка – в эпоху мессенджеров сама идея сервиса, полностью завязанного на общении голосом, витала в воздухе. 

Впрочем, помимо Clubhouse в нише голосовых приложений хватает и других интересных стартапов. Я сделал небольшую подборку голосовых сервисов, которые показались мне полезными или необычными. 

Читать далее

ИИ-технологии компании Aflorithmic помогли цифровому помощнику заговорить голосом Эйнштейна

Время на прочтение2 мин
Количество просмотров1.3K

Технологии быстро развиваются, это касается многих отраслей и направлений. Одно из них - цифровые помощники, которые учатся общаться с человеком при помощи искусственного интеллекта. Ученым из компании Aflorithmic удалось не только научить своего робота общаться, но и восстановить голос Альберта Эйнштейна. Теперь умный ассистент компании говорит голосом великого ученого.

В проекте Aflorithmic также принял участие стартап UneeQ. Они разместили чат-бота на своем сайте, так что при желании поговорить с ним может любой желающий. Восстановление голоса ученого реализовано благодаря сохранившимся записям, пусть и неидеального качества, и описаниям людей, которые с ним общались.

Читать далее

Алиса обучает английскому

Время на прочтение1 мин
Количество просмотров19K

В этой короткой заметке (несколько абзацев, фотографий, и коротких видеороликов) показано как можно использовать Алису (голосового помощника от Яндекса) в преподавании английского языка.

Читать далее

Зачем нам потребовалось написать свою реализацию MRCP-сервера. Часть 1

Время на прочтение4 мин
Количество просмотров3.4K

Привет, Хабр! Сегодня мы хотели бы поделиться кейсом создания собственного MRCP-сервера. Это протокол передачи данных, используемый серверами для предоставления различных услуг (таких как распознавание речи и синтез речи) для своих клиентов. MRCP опирается на другие протоколы, в частности, потоковый протокол реального времени (протокол RTSP) или протокол установления сеанса связи (протокол SIP) для установления и управления сеансом аудиопотоков между клиентом и сервером. О том, что нас привело к созданию собственной реализации этого сервера - под катом. Во второй части расскажем об особенностях своего проекта, с подробным разбором возможностей. 

Читать далее

Открытие двери с телефона, голосовым ассистентом и с помощью модуля Sonoff Mini

Время на прочтение3 мин
Количество просмотров11K

В процессе эксплуатации обычного штатного контроля доступом, всегда хотелось реализовать что-нибудь "ЭTAKOE". И тут один из наших заказчиков, просит сделать у себя в частном доме открытие калитки без видеодомофона, а только беспроводной кнопкой и чтоб с телефона можно было. Изначально идея показалась так себе, дешевые решения на Aliexpress не внушали доверия (НИКОГДА). И тут на просторах интернета попадается статья на habr.com Открываем дверь домофона при помощи голосового ассистента и ардуино и я понял, это то что надо. Кстати пока проводил тестирования, у себя дома, реализовал 2 проекта: Открытие домофона и слив воды в унитазе.

Читать далее

Ближайшие события

Разрабатываем своего первого голосового ассистента на iOS

Время на прочтение11 мин
Количество просмотров4.3K

За последнее время значимость голосовых функций и звука значительно выросла. Примером тому может служить уже громкая история запуска приложения Clubhouse, голосовых ассистентов Сбера и общего оживления интереса со стороны пользователей, компаний и инвесторов к звуку на мобильных устройствах.

На мой взгляд, звук как интерфейс между пользователем и приложениями, изначально был недооценен, однако с появлением технологий искусственного интеллекта, высокой информационной нагрузки и нехватки времени, польза аудио становится очевиднее.

В этой статье я бы хотел рассмотреть пример разработки голосового помощника на платформе iOS, используя язык Swift.

Читать далее

Голосовой ассистент Виталий (школьный проект)

Время на прочтение4 мин
Количество просмотров4.9K

Данный пост создан исключительно для получения отзывов у специалистов, поэтому смело минусуйте его, дабы не засорять ленту школьными проектами.

Также не советую использовать пост как гайд, так как я сам учусь и собираю отзывы и советы от знающих людей.

Почта автора для советов и комментариев: glebilic@gmail.com

Смотреть проект

Как мы визуальный конструктор обучения цифровых агентов разработали

Время на прочтение6 мин
Количество просмотров2.4K

И снова привет, Хабр! В прошлой статье мы рассказывали, как создаем голосового агента (предпочитаем этот термин, а не "голосовой робот") всего на 500 записях. Если кратко вспомнить содержание, то мы научились успешно обучать агентов на очень небольшой базе звонков.

Чтобы было понятно, зачем это - наша компания предоставляет услуги контакт-центра на базе искусственного интеллекта. Ну а для построения логики диалога мы используем визуальный конструктор, который повышает эффективность этой работы. В новой статье как раз и рассказываем о том, что за система и как она работает. Со скриншотами и кейсами - все, как вы любите. 

Читать далее

Готовим c serverless. Голосовой сервис записи к врачу и регистрации в поликлинике

Время на прочтение6 мин
Количество просмотров5.7K

Какой serverless-стек нужен, из чего состоит сценарий и как может быть устроена система CRM на стороне Yandex.Cloud. Коммуникационная платформа Voximplant и Yandex.Cloud подготовили рецепт голосового сервиса регистрации и записи на прием к врачу в поликлинику. Впрочем, им можно воспользоваться и для других похожих serverless-задач.

Читать рецепт далее

FAQ чатбот COVID-19 — спустя год

Время на прочтение3 мин
Количество просмотров1.4K

Около года назад я решил написать чат-бота, который отвечает на часто задаваемые вопросы о COVID-19. В тот момент многим показалось, что моя идея не более чем хайп, который спустя короткий промежуток времени потухнет. Однако, оказалось, что спустя год, данная тема только набирает обороты. В этой статье я расскажу о том, как мы создавали чат-бот для консультации по вопросам COVID-19 по просьбе МВД (BMI) Германии, а также выражу идею о создании аналогичного проекта в России.

Читать далее

Hi-tech коммуникации, или как мы создаем голосового агента всего на 500 записях

Время на прочтение8 мин
Количество просмотров2.3K
image

На Хабре не раз и не два писали о голосовых роботах, принципах их работы и задачах, которые они способны решать. Соответственно, общие принципы создания таких роботов (их мы предпочитаем называть «цифровыми агентами) понятны многим. И это хорошо, ведь в этой статье мы хотели бы поговорить о быстром обучении роботов.

Нам удалось успешно обучать агентов на очень ограниченной базе звонков. Минимальное количество записей, на основе которых можно разработать полноценного цифрового агента — всего 500. (Спойлер — речь идет, скорее, о специализации ассистента, а не обучении с нуля). Как происходит обучение, и какие здесь есть подводные камни, особенности, что лежит в основе технологии? Об этом сегодня и поговорим.

Как разработчику голосовых навыков получить выход на аудиторию Сбера (короткий путь)

Время на прочтение3 мин
Количество просмотров1.7K

Just AI стал первым аккредитованным технологическим партнером SberDevices по созданию голосовых навыков для виртуальных ассистентов Салют. Теперь бизнес может заказывать в Just AI разработку голосовых смартапов, которые будут доступны в ТВ-приставке SberPortal, умном экране SberBox и в мобильных приложениях Сбера — в том числе навыки со встроенными платежами.

А в конструкторе чат-ботов Aimylogic и enterprise-платформе JAICP появилась удобная интеграция с новым каналом — разработчики могут самостоятельно создавать смартапы и даже переносить в ассистентов Салют уже готовые навыки (например, разработанные для Алисы). Рассказываем, как это делать и зачем.

Читать далее