Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

СтатьиПостыНовостиАвторыКомпании

neuroonet 13 июл 2021 в 08:45

Голосовой ИИ: технологии под капотом цифрового агента

5 мин

4.1K

Блог компании Neuro.netАлгоритмы * Голосовые интерфейсы * Машинное обучение *

Привет, Хабр! Сегодня мы предлагаем поговорить про так называемый голосовой искусственный интеллект и про технологии, которые делают его «умным». Кроме того, поговорим и о «магии» нашей голосовой платформы — о том, что позволяет голосовому агенту вести нормальную беседу с человеком.

Технологии достигли настолько высокого уровня, что даже профессионалы, которые занимаются разработкой голосовых технологий, зачастую затрудняются отличить робота от человека. Кстати, эта статья подготовлена по выступлению СТО Neuro.net Игоря Десятникова на Tech Week 2021. Если не хочется читать статью — вот видео, если же нужны подробности, то все самое интересное — под катом.

+14

cointegrated 2 июл 2021 в 11:35

Лучшие навыки Алисы и советы от их разработчиков

8 мин

56K

Программирование * Разработка игр * Интерфейсы * Яндекс API * Голосовые интерфейсы *

Я уже довольно давно разрабатываю навыки для Яндекс.Алисы, но пока не создал ни одного популярного. Недавно мне стало интересно: а какие навыки становятся самыми популярными, и кто те люди, которые их создают? Чтобы ответить на этот вопрос, я проанализировал каталог Алисы и опросил 20 разработчиков, чьи навыки набрали наибольшее количество оценок "пять". Похоже, что к их советам стоит прислушаться.

+12

Barrayar 1 июл 2021 в 15:55

Игровые навыки у голосовых помощников

6 мин

2.5K

Блог компании VKГаджетыГолосовые интерфейсы *

Любая технология, ставшая популярной, чему-то этим обязана. Одной из причин популярности голосовых помощников стали так называемые игровые навыки — умение играть с пользователями. Давайте поговорим о современном состоянии этой отрасли, чем интересны голосовые навыки и как они могут развиваться в ближайшем будущем.

+16

u53r 29 июн 2021 в 08:39

Капсула Мини: разбираем новую умную колонку

2 мин

18K

Блог компании VKГаджетыГолосовые интерфейсы *

Привет, Хабр! В моей прошлой статье я разбирал умную колонку Капсула с Марусей на борту. Недавно мне в руки попала еще не вышедшая новая версия. И мне уже не терпится посмотреть, что же у нее внутри! А также сравнить с Капсулой, которую я разбирал ранее. Сегодня новая колонка уже вышла официально, и я могу опубликовать свой разбор. Итак, приступим.

Читать дальше →

+29

MaximML 27 июн 2021 в 12:49

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

4 мин

16K

Python * MongoDB * Голосовые интерфейсы *

Из песочницы

Как (и зачем?) написать голосовой дневник, используя open source инструменты.

KseniaKuza 20 июн 2021 в 22:40

Распознавание эмоций в записях телефонных разговоров

7 мин

13K

Голосовые интерфейсы * Микросервисы * Машинное обучение * 1С-Битрикс * Анализ и проектирование систем *

Из песочницы

В этой статье хочу рассказать о том, как я создавала сервис для распознавания эмоций на основе анализа записей деловых телефонных разговоров.

Читать

snakers4 18 июн 2021 в 10:40

Мы сделали наш публичный синтез речи еще лучше

11 мин

21K

Natural Language Processing * Голосовые интерфейсы * ЗвукМашинное обучение *

6cc6e0011d4d26aeded6f052080b1890

Обновление — забыл ссылку на репозиторий и на колаб с примерами.

Мы были очень рады, что наша прошлая статья понравилась Хабру. Мы получили много позитивной и негативной обратной связи. Также в ней мы сделали ряд обещаний по развитию нашего синтеза.

Мы достигли существенного прогресса по этим пунктам, но ультимативный релиз со всеми новыми фичами и спикерами может занять относительно много времени, поэтому не хотелось бы уходить в радиомолчание надолго. В этой статье мы ответим на справедливую и не очень критику и поделимся хорошими новостями про развитие нашего синтеза.

Если коротко:

Мы сделали наш вокодер в 4 раза быстрее;
Мы сделали пакетирование моделей более удобным;
Мы сделали мультиспикерную / мультязычную модель и "заставили" спикеров говорить на "чужих" языках;
Мы добавили в наши русские модели возможность автопростановки ударений и буквы ё с некоторыми ограничениями;
Теперь мы можем сделать голос с нормальным качеством на 15 минутах — 1 часе (с теплого старта в принципе заводилось даже на 3-7 минутах) или на 5 часах аудио (с холодного старта). Но тут все очень сильно зависит от качества самого аудио и ряда деталей;
Мы привлекли коммьюнити к работе, и нам помогли сделать удобный интерфейс для записи. Мы начали работу над голосами на языках народностей СНГ (украинский, татарский, башкирский, узбекский, таджикский). Если вы хотите увидеть свой язык в числе спикеров — пишите нам;
Мы продолжаем собирать обратную связь по применимости нашей системы для экранных интерфейсов чтения, и пока кажется, что нужно где-то еще всё ускорить в 5-10 раз, чтобы наши модели закрывали и этот кейс;

+63

tony_vi 10 июн 2021 в 10:34

Сценарии для виртуальных ассистентов Салют на NodeJS и фреймворке SaluteJS

11 мин

4.6K

Блог компании SberDevicesГолосовые интерфейсы * Natural Language Processing * Node.JS * Open source *

Туториал

Привет! В одной из прошлых статей мы рассказывали о создании клиентской части навыков для виртуальных ассистентов на веб-технологиях и обещали вернуться с обзором создания сценарной части на NodeJS. Торжественно сдерживаем своё обещание!

Недавно мы выложили в открытый доступ фреймворк SaluteJS. Он позволяет создавать сценарии для виртуальных ассистентов Салют, используя стандартные методы JavaScript. Поскольку взаимодействие с NLP-платформой реализовано по http, мы подумали, что было бы круто писать сценарии примерно так же, как мы пишем обычные веб-сервисы, используя NodeJS. Вы можете интегрировать SaluteJS с любыми фреймворками вроде next.js, express, hapi или koa. Интеграция выполняется посредством middleware, где вы можете выражать обработку команд ассистента и голосовых команд пользователя, которые приходят в виде обычного http-запроса. Ниже покажу на конкретном примере, как это работает.

Погнали!

maija_ra 3 июн 2021 в 06:15

Как можно запустить MVP личного кабинета в WhatsApp и получить новый инструмент для проверки гипотез

5 мин

1.7K

Блог компании «Ренессанс страхование»Голосовые интерфейсы * Проектирование API * Oracle * Мессенджеры *

Всем привет, меня зовут Майя и я аналитик в «Ренессанс страхование», команда цифровых каналов коммуникаций.

В 2020-м многие развивали онлайн-сервисы и мы тоже максимально оцифровывались и запускали новые сервисы, в том числе в мессенджерах. Основным мессенджером для нас стал WhatsApp с бизнес-аккаунтом WhatsApp Business API. Именно в нем мы успешно запустили MVP личного кабинета к новой бонусной программе. Расскажу каким стеком воспользовались и какие результаты запуска получили.

atmoPunk 2 июн 2021 в 17:00

Навык для Алисы «Проведи стендап»

3 мин

3.9K

Голосовые интерфейсы * Управление разработкой *

Из песочницы

Никогда вам не хотелось автоматизировать проведение стенд апа? В статье я расскажу о своей попытке это сделать.

SellerDen 31 мая 2021 в 12:26

Яндекс научил Алису принимать платежи за онлайн-покупки. Девочка созрела?

3 мин

3.9K

Разработка под e-commerce * Управление e-commerce * Голосовые интерфейсы *

"Яндекс" с каждым днем делает все более интересные (заметьте, мы не рискуем говорить - уверенные) шаги в сторону развития своих торговых платформ. И все чаще напоминает собой российский Amazon замедленного действия.

Настал светлый час, "Алиса" созрела и родители доверили ей первые карманные деньги. Точнее научили ими пользоваться, а вот сами деньги, конечно, "Алиса" будет брать у покупателей. Это хоть и робкий, но серьезный шаг. Учитывая, что "Яндекс" изо всех сил вытащить свой Маркет на передовую, новая функция может ему в этом помощь. В будущем.

Мы узнали подробности и подсмотрели за спросом на умные колонки от Яндекса на российских маркетплейсах.

-3

snakers4 27 мая 2021 в 12:51

Ультимативное сравнение систем распознавания речи: Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

8 мин

23K

Машинное обучение * Искусственный интеллектЗвукГолосовые интерфейсы *

sandwich_fake

Какое-то время назад мы писали цикл статей про то, как правильно измерять качество систем распознавания речи, и собственно снимали метрики с доступных решений (цикл статей — 1, 2, 3) (на тот момент и коммерческих и некоммерческих решений). На Хабре была выжимка из этого цикла в рамках этой статьи, но до масштабного обновления исследования, достойного публикации на Хабре, руки никак не доходили (это требует как минимум большого количества усилий и подготовки).

Прошло некоторое время и пора обновить наше исследование, сделав его по-настоящему ультимативным. По сравнению с прошлыми исследованиями изменилось или добавилось следующее:

Добавилось много валидационных сетов из разных реальных доменов;
На рынок вышел Сбер, в первую очередь интересно протестировать именно его;
Для чистоты эксперимента, мы не предупреждали разработчиков систем о доменах и факте проведения тестов;
Мы также попробовали немного протестировать пропускную способность сервисов (понятно, что мы не знаем какое железо и ограничения стоят в облаке);
Мы рассматриваем только коммерческие системы, к которым у нас получилось получить доступ и которые показали хоть какой-то намек на "всеядность", работу с холодного старта и "энтерпрайзность";

Читать дальше →

+20

AlexanderDenisenko 27 мая 2021 в 11:34

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

6 мин

20K

Блог компании SberDevicesOpen source * Голосовые интерфейсы * Искусственный интеллектМашинное обучение *

Меня зовут Саша, в SberDevices я занимаюсь системой распознавания речи и тем, как данные могут сделать её лучше. В этой статье я расскажу о новом речевом датасете Golos, который состоит из аудиофайлов и соответствующих транскрипций. Общая длительность записей составляет примерно 1240 часов, частота дискретизации – 16кГц. На текущий момент это самый большой корпус аудиозаписей на русском языке, размеченный вручную. Мы выпустили корпус под лицензией, близкой к CC Attribution ShareAlike, что позволяет его использовать как для научных исследований, так и в коммерческих целях. Я расскажу о том, из чего состоит датасет, каким образом он был собран и каких результатов позволяет достичь.

Читать дальше →

+31

Dino_the_dinosaur 24 мая 2021 в 10:19

Как адаптировать языковые модели Kaldi? (со смешными животными)

14 мин

12K

Блог компании Центр Финансовых Технологий (ЦФТ)Natural Language Processing * Open source * Голосовые интерфейсы * Машинное обучение *

Туториал

«Как научить русскоязычную модель распознавать речь геймеров?» Подобными вопросами задаются те, кто увлекается и занимается NLP. В частности, NLP-специалистов интересует, как можно адаптировать модель Kaldi под свою предметную область, чтобы улучшить качество распознавания. Это мы и разберём в данной статье.

Читать дальше →

lol_wat 22 мая 2021 в 13:22

Автоматизация, безопасность, онлайн-знакомства: для чего еще используют голосовые технологии в 2021 году

3 мин

1.8K

Голосовые интерфейсы * IT-компанииЗвукБизнес-модели * Управление продуктом *

Голосовые интерфейсы и форматы общения сейчас переживают новый виток популярности благодаря активно развивающимся технологиям распознавания речи и обработки естественного языка (NLP). Ведущие технологические компании одна за другой выпускают голосовых ассистентов, системы безопасности оборудуются биометрическими компонентами, а рынок подкастов постоянно растет. Но обо всем по порядку.

just_ai 21 мая 2021 в 17:00

Все, что вы хотели знать про диалоговый UX/UI в проектировании чат-ботов

8 мин

12K

Блог компании Just AIГолосовые интерфейсы * Искусственный интеллектРазработка под e-commerce * Usability *

Читайте в статье: что такое диалоговый UX/UI и как его создавать, а также полезные лайфхаки при проектировании сценария для чат-бота.

В этой статье мы поделимся выстраданными на собственном опыте советами по проектированию чат-ботов и голосовых помощников, а также полезными лайфхаками при создании сценариев. И конечно, расскажем, как сделать пользовательский опыт в диалоговых сервисах максимально комфортным для пользователя.

Мы будем двигаться от самого простого к сложному. Если знаете азы — сразу листайте к блоку для продвинутых пользователей.

alexlash 15 мая 2021 в 13:47

Не только Clubhouse: распознавание речи, подкасты, голосовые знакомства и соцсети

2 мин

3.4K

Социальные сетиГолосовые интерфейсы *

Огромную популярность соцсети Clubhouse можно объяснять по-разному: от удачного времени запуска (во время пандемии) до ее элитарного характера (система инвайтов, нет записи трансляций, до недавнего времени была версия только для iOS). Но одно можно сказать наверняка – в эпоху мессенджеров сама идея сервиса, полностью завязанного на общении голосом, витала в воздухе.

Впрочем, помимо Clubhouse в нише голосовых приложений хватает и других интересных стартапов. Я сделал небольшую подборку голосовых сервисов, которые показались мне полезными или необычными.

katerinakovalenko 13 мая 2021 в 09:56

ИИ-технологии компании Aflorithmic помогли цифровому помощнику заговорить голосом Эйнштейна

2 мин

1.3K

Блог компании Neuro.netГолосовые интерфейсы * Искусственный интеллектМашинное обучение * Big Data *

Перевод

Технологии быстро развиваются, это касается многих отраслей и направлений. Одно из них - цифровые помощники, которые учатся общаться с человеком при помощи искусственного интеллекта. Ученым из компании Aflorithmic удалось не только научить своего робота общаться, но и восстановить голос Альберта Эйнштейна. Теперь умный ассистент компании говорит голосом великого ученого.

В проекте Aflorithmic также принял участие стартап UneeQ. Они разместили чат-бота на своем сайте, так что при желании поговорить с ним может любой желающий. Восстановление голоса ученого реализовано благодаря сохранившимся записям, пусть и неидеального качества, и описаниям людей, которые с ним общались.

mzaharov 4 мая 2021 в 09:20

Алиса обучает английскому

1 мин

19K

Голосовые интерфейсы *

В этой короткой заметке (несколько абзацев, фотографий, и коротких видеороликов) показано как можно использовать Алису (голосового помощника от Яндекса) в преподавании английского языка.

-6

katerinakovalenko 30 апр 2021 в 09:17

Зачем нам потребовалось написать свою реализацию MRCP-сервера. Часть 1

4 мин

3.5K

Блог компании Neuro.netУправление проектами * Голосовые интерфейсы *

Привет, Хабр! Сегодня мы хотели бы поделиться кейсом создания собственного MRCP-сервера. Это протокол передачи данных, используемый серверами для предоставления различных услуг (таких как распознавание речи и синтез речи) для своих клиентов. MRCP опирается на другие протоколы, в частности, потоковый протокол реального времени (протокол RTSP) или протокол установления сеанса связи (протокол SIP) для установления и управления сеансом аудиопотоков между клиентом и сервером. О том, что нас привело к созданию собственной реализации этого сервера - под катом. Во второй части расскажем об особенностях своего проекта, с подробным разбором возможностей.

1 2 ...

8 9

11 12 13 14 15

Голосовые интерфейсы *

Голосовой ИИ: технологии под капотом цифрового агента

Лучшие навыки Алисы и советы от их разработчиков

Игровые навыки у голосовых помощников

Капсула Мини: разбираем новую умную колонку

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

Распознавание эмоций в записях телефонных разговоров

Мы сделали наш публичный синтез речи еще лучше

Сценарии для виртуальных ассистентов Салют на NodeJS и фреймворке SaluteJS

Как можно запустить MVP личного кабинета в WhatsApp и получить новый инструмент для проверки гипотез

Навык для Алисы «Проведи стендап»

Яндекс научил Алису принимать платежи за онлайн-покупки. Девочка созрела?

Ультимативное сравнение систем распознавания речи: Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

Ближайшие события

Как адаптировать языковые модели Kaldi? (со смешными животными)

Автоматизация, безопасность, онлайн-знакомства: для чего еще используют голосовые технологии в 2021 году

Все, что вы хотели знать про диалоговый UX/UI в проектировании чат-ботов

Не только Clubhouse: распознавание речи, подкасты, голосовые знакомства и соцсети

ИИ-технологии компании Aflorithmic помогли цифровому помощнику заговорить голосом Эйнштейна

Алиса обучает английскому

Зачем нам потребовалось написать свою реализацию MRCP-сервера. Часть 1

Вклад авторов