Обновить
20.2

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Голосовой ИИ: технологии под капотом цифрового агента

Время на прочтение5 мин
Количество просмотров4.1K
image

Привет, Хабр! Сегодня мы предлагаем поговорить про так называемый голосовой искусственный интеллект и про технологии, которые делают его «умным». Кроме того, поговорим и о «магии» нашей голосовой платформы — о том, что позволяет голосовому агенту вести нормальную беседу с человеком.

Технологии достигли настолько высокого уровня, что даже профессионалы, которые занимаются разработкой голосовых технологий, зачастую затрудняются отличить робота от человека. Кстати, эта статья подготовлена по выступлению СТО Neuro.net Игоря Десятникова на Tech Week 2021. Если не хочется читать статью — вот видео, если же нужны подробности, то все самое интересное — под катом.

Лучшие навыки Алисы и советы от их разработчиков

Время на прочтение8 мин
Количество просмотров56K

Я уже довольно давно разрабатываю навыки для Яндекс.Алисы, но пока не создал ни одного популярного. Недавно мне стало интересно: а какие навыки становятся самыми популярными, и кто те люди, которые их создают? Чтобы ответить на этот вопрос, я проанализировал каталог Алисы и опросил 20 разработчиков, чьи навыки набрали наибольшее количество оценок "пять". Похоже, что к их советам стоит прислушаться.

Читать далее

Игровые навыки у голосовых помощников

Время на прочтение6 мин
Количество просмотров2.5K

Любая технология, ставшая популярной, чему-то этим обязана. Одной из причин популярности голосовых помощников стали так называемые игровые навыки — умение играть с пользователями. Давайте поговорим о современном состоянии этой отрасли, чем интересны голосовые навыки и как они могут развиваться в ближайшем будущем.

Читать далее

Капсула Мини: разбираем новую умную колонку

Время на прочтение2 мин
Количество просмотров18K

Привет, Хабр! В моей прошлой статье я разбирал умную колонку Капсула с Марусей на борту. Недавно мне в руки попала еще не вышедшая новая версия. И мне уже не терпится посмотреть, что же у нее внутри! А также сравнить с Капсулой, которую я разбирал ранее. Сегодня новая колонка уже вышла официально, и я могу опубликовать свой разбор. Итак, приступим.
Читать дальше →

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

Время на прочтение4 мин
Количество просмотров16K

Как (и зачем?) написать голосовой дневник, используя open source инструменты.

Читать далее

Распознавание эмоций в записях телефонных разговоров

Время на прочтение7 мин
Количество просмотров13K

В этой статье хочу рассказать о том, как я создавала сервис для распознавания эмоций на основе анализа записей деловых телефонных разговоров.

Читать

Мы сделали наш публичный синтез речи еще лучше

Время на прочтение11 мин
Количество просмотров21K

6cc6e0011d4d26aeded6f052080b1890


Обновление — забыл ссылку на репозиторий и на колаб с примерами.


Мы были очень рады, что наша прошлая статья понравилась Хабру. Мы получили много позитивной и негативной обратной связи. Также в ней мы сделали ряд обещаний по развитию нашего синтеза.


Мы достигли существенного прогресса по этим пунктам, но ультимативный релиз со всеми новыми фичами и спикерами может занять относительно много времени, поэтому не хотелось бы уходить в радиомолчание надолго. В этой статье мы ответим на справедливую и не очень критику и поделимся хорошими новостями про развитие нашего синтеза.


Если коротко:


  • Мы сделали наш вокодер в 4 раза быстрее;
  • Мы сделали пакетирование моделей более удобным;
  • Мы сделали мультиспикерную / мультязычную модель и "заставили" спикеров говорить на "чужих" языках;
  • Мы добавили в наши русские модели возможность автопростановки ударений и буквы ё с некоторыми ограничениями;
  • Теперь мы можем сделать голос с нормальным качеством на 15 минутах — 1 часе (с теплого старта в принципе заводилось даже на 3-7 минутах) или на 5 часах аудио (с холодного старта). Но тут все очень сильно зависит от качества самого аудио и ряда деталей;
  • Мы привлекли коммьюнити к работе, и нам помогли сделать удобный интерфейс для записи. Мы начали работу над голосами на языках народностей СНГ (украинский, татарский, башкирский, узбекский, таджикский). Если вы хотите увидеть свой язык в числе спикеров — пишите нам;
  • Мы продолжаем собирать обратную связь по применимости нашей системы для экранных интерфейсов чтения, и пока кажется, что нужно где-то еще всё ускорить в 5-10 раз, чтобы наши модели закрывали и этот кейс;

Сценарии для виртуальных ассистентов Салют на NodeJS и фреймворке SaluteJS

Время на прочтение11 мин
Количество просмотров4.6K

Привет! В одной из прошлых статей мы рассказывали о создании клиентской части навыков для виртуальных ассистентов на веб-технологиях и обещали вернуться с обзором создания сценарной части на NodeJS. Торжественно сдерживаем своё обещание!

Недавно мы выложили в открытый доступ фреймворк SaluteJS. Он позволяет создавать сценарии для виртуальных ассистентов Салют, используя стандартные методы JavaScript. Поскольку взаимодействие с NLP-платформой реализовано по http, мы подумали, что было бы круто писать сценарии примерно так же, как мы пишем обычные веб-сервисы, используя NodeJS. Вы можете интегрировать SaluteJS с любыми фреймворками вроде next.js, express, hapi или koa. Интеграция выполняется посредством middleware, где вы можете выражать обработку команд ассистента и голосовых команд пользователя, которые приходят в виде обычного http-запроса. Ниже покажу на конкретном примере, как это работает. 

Погнали!

Как можно запустить MVP личного кабинета в WhatsApp и получить новый инструмент для проверки гипотез

Время на прочтение5 мин
Количество просмотров1.7K

Всем привет, меня зовут Майя и я аналитик в «Ренессанс страхование», команда цифровых каналов коммуникаций. 

В 2020-м многие развивали онлайн-сервисы и мы тоже максимально оцифровывались и запускали новые сервисы, в том числе в мессенджерах. Основным мессенджером для нас стал WhatsApp с бизнес-аккаунтом WhatsApp Business API. Именно в нем мы успешно запустили MVP личного кабинета к новой бонусной программе. Расскажу каким стеком воспользовались и какие результаты запуска получили.

Читать далее

Навык для Алисы «Проведи стендап»

Время на прочтение3 мин
Количество просмотров3.9K

Никогда вам не хотелось автоматизировать проведение стенд апа? В статье я расскажу о своей попытке это сделать.

Читать далее

Яндекс научил Алису принимать платежи за онлайн-покупки. Девочка созрела?

Время на прочтение3 мин
Количество просмотров3.9K

"Яндекс" с каждым днем делает все более интересные (заметьте, мы не рискуем говорить - уверенные) шаги в сторону развития своих торговых платформ. И все чаще напоминает собой российский Amazon замедленного действия.

Настал светлый час, "Алиса" созрела и родители доверили ей первые карманные деньги. Точнее научили ими пользоваться, а вот сами деньги, конечно, "Алиса" будет брать у покупателей. Это хоть и робкий, но серьезный шаг. Учитывая, что "Яндекс" изо всех сил вытащить свой Маркет на передовую, новая функция может ему в этом помощь. В будущем.

Мы узнали подробности и подсмотрели за спросом на умные колонки от Яндекса на российских маркетплейсах.

Читать далее

Ультимативное сравнение систем распознавания речи: Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

Время на прочтение8 мин
Количество просмотров23K

sandwich_fake


Какое-то время назад мы писали цикл статей про то, как правильно измерять качество систем распознавания речи, и собственно снимали метрики с доступных решений (цикл статей — 1, 2, 3) (на тот момент и коммерческих и некоммерческих решений). На Хабре была выжимка из этого цикла в рамках этой статьи, но до масштабного обновления исследования, достойного публикации на Хабре, руки никак не доходили (это требует как минимум большого количества усилий и подготовки).


Прошло некоторое время и пора обновить наше исследование, сделав его по-настоящему ультимативным. По сравнению с прошлыми исследованиями изменилось или добавилось следующее:


  • Добавилось много валидационных сетов из разных реальных доменов;
  • На рынок вышел Сбер, в первую очередь интересно протестировать именно его;
  • Для чистоты эксперимента, мы не предупреждали разработчиков систем о доменах и факте проведения тестов;
  • Мы также попробовали немного протестировать пропускную способность сервисов (понятно, что мы не знаем какое железо и ограничения стоят в облаке);
  • Мы рассматриваем только коммерческие системы, к которым у нас получилось получить доступ и которые показали хоть какой-то намек на "всеядность", работу с холодного старта и "энтерпрайзность";
Читать дальше →

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

Время на прочтение6 мин
Количество просмотров20K


Меня зовут Саша, в SberDevices я занимаюсь системой распознавания речи и тем, как данные могут сделать её лучше. В этой статье я расскажу о новом речевом датасете Golos, который состоит из аудиофайлов и соответствующих транскрипций. Общая длительность записей составляет примерно 1240 часов, частота дискретизации – 16кГц. На текущий момент это самый большой корпус аудиозаписей на русском языке, размеченный вручную. Мы выпустили корпус под лицензией, близкой к CC Attribution ShareAlike, что позволяет его использовать как для научных исследований, так и в коммерческих целях. Я расскажу о том, из чего состоит датасет, каким образом он был собран и каких результатов позволяет достичь.
Читать дальше →

Ближайшие события

Как адаптировать языковые модели Kaldi? (со смешными животными)

Время на прочтение14 мин
Количество просмотров12K


«Как научить русскоязычную модель распознавать речь геймеров?» Подобными вопросами задаются те, кто увлекается и занимается NLP. В частности, NLP-специалистов интересует, как можно адаптировать модель Kaldi под свою предметную область, чтобы улучшить качество распознавания. Это мы и разберём в данной статье.
Читать дальше →

Автоматизация, безопасность, онлайн-знакомства: для чего еще используют голосовые технологии в 2021 году

Время на прочтение3 мин
Количество просмотров1.8K

Голосовые интерфейсы и форматы общения сейчас переживают новый виток популярности благодаря активно развивающимся технологиям распознавания речи и обработки естественного языка (NLP). Ведущие технологические компании одна за другой выпускают голосовых ассистентов, системы безопасности оборудуются биометрическими компонентами, а рынок подкастов постоянно растет. Но обо всем по порядку. 

Читать далее

Все, что вы хотели знать про диалоговый UX/UI в проектировании чат-ботов

Время на прочтение8 мин
Количество просмотров12K

Читайте в статье: что такое диалоговый UX/UI и как его создавать, а также полезные лайфхаки при проектировании сценария для чат-бота. 

В этой статье мы поделимся выстраданными на собственном опыте советами по проектированию чат-ботов и голосовых помощников, а также полезными лайфхаками при создании сценариев. И конечно, расскажем, как сделать пользовательский опыт в диалоговых сервисах максимально комфортным для пользователя. 

Мы будем двигаться от самого простого к сложному. Если знаете азы — сразу листайте к блоку для продвинутых пользователей.

Читать далее

Не только Clubhouse: распознавание речи, подкасты, голосовые знакомства и соцсети

Время на прочтение2 мин
Количество просмотров3.4K

Огромную популярность соцсети Clubhouse можно объяснять по-разному: от удачного времени запуска (во время пандемии) до ее элитарного характера (система инвайтов, нет записи трансляций, до недавнего времени была версия только для iOS). Но одно можно сказать наверняка – в эпоху мессенджеров сама идея сервиса, полностью завязанного на общении голосом, витала в воздухе. 

Впрочем, помимо Clubhouse в нише голосовых приложений хватает и других интересных стартапов. Я сделал небольшую подборку голосовых сервисов, которые показались мне полезными или необычными. 

Читать далее

ИИ-технологии компании Aflorithmic помогли цифровому помощнику заговорить голосом Эйнштейна

Время на прочтение2 мин
Количество просмотров1.3K

Технологии быстро развиваются, это касается многих отраслей и направлений. Одно из них - цифровые помощники, которые учатся общаться с человеком при помощи искусственного интеллекта. Ученым из компании Aflorithmic удалось не только научить своего робота общаться, но и восстановить голос Альберта Эйнштейна. Теперь умный ассистент компании говорит голосом великого ученого.

В проекте Aflorithmic также принял участие стартап UneeQ. Они разместили чат-бота на своем сайте, так что при желании поговорить с ним может любой желающий. Восстановление голоса ученого реализовано благодаря сохранившимся записям, пусть и неидеального качества, и описаниям людей, которые с ним общались.

Читать далее

Алиса обучает английскому

Время на прочтение1 мин
Количество просмотров19K

В этой короткой заметке (несколько абзацев, фотографий, и коротких видеороликов) показано как можно использовать Алису (голосового помощника от Яндекса) в преподавании английского языка.

Читать далее

Зачем нам потребовалось написать свою реализацию MRCP-сервера. Часть 1

Время на прочтение4 мин
Количество просмотров3.5K

Привет, Хабр! Сегодня мы хотели бы поделиться кейсом создания собственного MRCP-сервера. Это протокол передачи данных, используемый серверами для предоставления различных услуг (таких как распознавание речи и синтез речи) для своих клиентов. MRCP опирается на другие протоколы, в частности, потоковый протокол реального времени (протокол RTSP) или протокол установления сеанса связи (протокол SIP) для установления и управления сеансом аудиопотоков между клиентом и сервером. О том, что нас привело к созданию собственной реализации этого сервера - под катом. Во второй части расскажем об особенностях своего проекта, с подробным разбором возможностей. 

Читать далее