Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Christina29 18 ноя 2021 в 09:20

Генеративные диалоговые модели: как мы разговорили виртуальных ассистентов Салют

9 мин

6.7K

Блог компании SberDevicesМашинное обучение * Искусственный интеллектNatural Language Processing * Голосовые интерфейсы *

Порой люди обращаются к искусственному интеллекту не для того, чтобы заказать еду, найти подходящий фильм или решить какую-то ещё свою задачу, а для того, чтобы просто поболтать. Например, потому что грустно, а рядом нет тех, с кем было бы удобно про это поговорить. И пусть виртуальные помощники пока не заменяют настоящих друзей или близких людей (они и не должны), но всё же они могут поднять настроение, помочь снизить уровень напряжения. Чтобы такое общение было живым и действительно интересным, мы разработали и применяем мощные разговорные модели на русском языке для виртуальных ассистентов Салют в режиме «Собеседник». Так, за Сбера с пользователем общается SBERT (retrieval-модель), за Джой — ruGPT-3 (генеративная модель), а за Афину — обе сразу. Поговорим сегодня о генеративной части.

Передаю слово моему коллеге, руководителю RnD NLP SberDevices Валерию Терновскому.

Gummio_7 15 ноя 2021 в 12:28

NLP в нашей жизни: почему важно научить машину понимать человеческий язык?

7 мин

Блог компании VisiologyГолосовые интерфейсы * Искусственный интеллектМашинное обучение *

Привет, Хабр! Сегодня мы хотим поговорить о зеленом купечестве и воздухонепроницаемом тринадцатом веке. Нашей задачей будет разделить арахисовый угол, являющийся краеугольным знанием будущего века. Но, не боясь этого затмения, мы сегодня прикоснемся к безопасному, неугасающему артефакту задач….всё, хватит. Генерировать подобный бред не составляет ничего сложного для нейросети, но при этом оказывается непростой задачей для человека. В этом посте мы как раз обсудим, почему так происходит, чем отличается естественная речь, почему технологии NLP становятся все более полезными с каждым днём, а главное — какие препятствия приходится преодолевать, чтобы машина поняла нас и смогла “сказать” что-то действительное осмысленное.

IamSkazka 9 ноя 2021 в 11:42

Мир против интентов

16 мин

Из песочницы

Я давно собирался и наконец-то решился высказать и доказать одну крамольную мысль. Датасайентисты из области NLU и NLP могут заранее готовит кирпичи, чтобы швырнуть ими в меня. Будет много жареного!

Начнём с главного - мир ошибается. Де факто! Диалоговые технологии развиваются не в том направлении и не теми темпами. Сайентисты научили алгоритмы превращать звук голоса в текст, а текст обратно в слышимую речь. Но между этими двумя частями находится задача понимания СМЫСЛА сказанного - того, что было заложено в произнесённый текст. “Рот” и “уши” сделать сумели, а к “голове” их прикрепить не получается. Вернее, то что подают за решение, решением не является. То что выдают за современные технологии IT-гиганты такой “детский сад”, что мама дорогая! Как это не стыдно выкладывать в мир таким компаниям как Гугл, Майкрософт и Яндекс. Примитивизм и убогость голосовых навыков просто удручает.

Узнать всё

-1

nurtdinovadf 5 ноя 2021 в 13:50

Бесплатное распознавание речи для всех желающих

3 мин

20K

Natural Language Processing * Голосовые интерфейсы * ЗвукМашинное обучение * Развитие стартапа

Читать дальше →

+17

vsile 5 ноя 2021 в 00:54

Распознавание речи в Telegram «на лету»

2 мин

11K

Голосовые интерфейсы * Go * Мессенджеры *

Задача распознавания голосовых сообщений в Telegram уже давно не новая. На эту тему написано много статей, разработано немало Telegram-ботов. С некоторыми решениями я ознакомился во время работы над функцией распознавания голосовых напоминаний для бота @RemindMegaBot и заметил, что в этих решениях используется не всегда оправданный подход:

Для распознавания речи аудиофайл загружается на диск.

Возникает справедливый вопрос — неужели нельзя обойтись без записи файла на диск? Ведь это освободит операционную систему от лишних операций и сократит время обработки данных!

Почему же разработчики используют именно такой подход?

perevalov_a 3 ноя 2021 в 12:35

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

4 мин

1.9K

Голосовые интерфейсы * Машинное обучение * Проектирование API * Семантические сети * Поисковые технологии *

Одним из важных шагов, используемых людьми в поиске ответа на вопрос, является понимание того, какой именно тип ответа устроит автора. К примеру, на вопрос: "Который час?", мы ожидаем услышать ответ с типом "время", а на вопрос "Где родился Иван Петров?" -- ответ с типом "населённый пункт". То же самое верно и для вопросно-ответных систем (Question-Answering, QA), целью которых является поиск ответа на фактографические вопросы. В данной статье я представлю модуль определения ожидаемого типа ответа на вопрос (Expected Answer Type, EAT), который способен определять не только один класс, но и строить иерархию классов в качестве прогнозного значения. Модуль предоставляется как в виде веб-интерфейса (UI) так и в виде RESTful API. Данная функциональность позволяет конечным пользователям получать предсказания типа ответа для 104 языков, видеть достоверность прогноза и оставлять обратную связь. Кроме того, API позволяет исследователям и разработчикам интегрировать EAT-классификацию в свои системы.

Dino_the_dinosaur 19 окт 2021 в 11:13

Обзор методов улучшения речи и шумоподавления: от классики к SotA

10 мин

16K

Блог компании МТСАлгоритмы * ЗвукNatural Language Processing * Голосовые интерфейсы *

Всем привет! Меня зовут Оля Яковенко, я разработчик в MTS AI, занимаюсь задачами по автоматической обработке сигналов. В частности, на данный момент я исследую различные подходы шумоподавления для последующего распознавания речи, и сегодня я хотела бы поделиться с вами обзором и некоторыми находками на эту тему.

neuroonet 16 окт 2021 в 00:25

Синтезированные ИИ голоса актеров позволяют обходиться без иностранной озвучки

3 мин

7.5K

Блог компании Neuro.netБудущее здесьГолосовые интерфейсы * Искусственный интеллект

Перевод

Следующий фильм или ТВ-шоу, которые вы будете смотреть, могут оказаться "работой" искусственного интеллекта. Представьте, что актеры Голливуда, Болливуда или любых других студий говорят на родном для вас языке в любом из новых фильмов или шоу. На самом деле, это вполне реальная история, вот только голоса могут не принадлежать человеку - все это дипфейки, правда, не мошеннические, а созданные самими киностудиями с использованием ИИ.

Уже сейчас видео- и голосовые дипфейки вполне сносно копируют оригинал А в ближайшем будущем эти технологии станут еще более совершенными. Компании смогут получать копии голосов актеров, говорящих на самых разных языках. И это будут не лишенные выражения "голоса" вроде современных цифровых агентов, а очень реалистичные голоса, снабженные эмоциями. Цифровые актеры смогут плакать, смеяться, бормотать - причем максимально близко к оригинальной озвучке.

stanislav_as 5 окт 2021 в 08:00

Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др

8 мин

13K

Блог компании НаносемантикаМашинное обучение * Искусственный интеллектЗвукГолосовые интерфейсы *

Всем привет! Я руковожу «Наносемантикой», сегодня хотел бы поделиться с вами результатами нашего сравнения сервисов распознавания речи (ASR). Мы собрали и разметили тестовый датасет на русском языке, прогнали через сервисы ASR, проанализировали результаты работы разных вендоров, собрали основные выводы.

Получилось интересно, подробности в статье.

Sber 27 сен 2021 в 15:37

Как мы сделали доступными все технологии Сбера на единой платформе: итоги первого года работы SmartMarket

7 мин

4.9K

Блог компании СберГолосовые интерфейсы * IT-компанииИнтерфейсы * Программирование *

Год назад, в сентябре 2020 года команда SberDevices выпустила семейство виртуальных ассистентов Салют. В семействе три персонажа — Сбер, Афина и Джой. Они доступны на умных устройствах Sber, устройствах под управлением Салют ТВ и в мобильных приложениях СберБанк Онлайн и Сбер Салют.

Вместе с этим запуском мы запустили первую версию платформы SmartMarket. С инструментами SmartMarket внешние разработчики и бизнес получили возможность создавать приложения для виртуальных ассистентов Салют.

Иван Смирнов, руководитель NLP-Platform и SmartMarket рассказывает, как мы собрали вместе инструменты и технологии Сбера и к чему удалось прийти за год.

-3

snakers4 13 сен 2021 в 11:37

Последние обновления моделей распознавания речи из Silero Models

2 мин

6.3K

Big Data * Natural Language Processing * Голосовые интерфейсы * Машинное обучение * Развитие стартапа

quality_growth

Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.

В этот раз мы можем порадовать вас:

Как большими, так и маленькими моделями;
Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;

Читать дальше →

+10

neuroonet 2 сен 2021 в 17:52

Голосовые ИИ-технологии: 3 перспективных направления, которые постепенно меняют мир

4 мин

3.7K

Блог компании Neuro.netНаучно-популярноеИскусственный интеллектГолосовые интерфейсы * Будущее здесь

Перевод

Системы, которые способны выполнять рутинные операции вместо человека, помогают поддерживать глобальную экономику. Собственно, они делают это десятилетиями — такие системы работают на благо цивилизации давно. Но что насчет систем, которые могут общаться и взаимодействовать с пользователем? Если говорить о полноценном общении, то пока что его нет, причина здесь одна — наша речь слишком сложная.

Каждый, кто пробовал взаимодействовать с цифровыми ассистентами вроде Alexa и Siri, видел и ощущал разницу между «общением» с ними и полноценным разговором с человеком. Но прогресс не стоит на месте. В ближайшем или не очень будущем продвинутые ИИ-собеседники обязательно появятся, ведь к этому все и идет. В целом, эта технология способна изменить мир. Под катом — обсуждение трех инновационных технологий, которые стимулируют развитие всей отрасли.

Читать дальше →

APPKODE 31 авг 2021 в 06:23

Учиться на ошибках: 3 кейса, которые научили нас грамотно проектировать VUI

7 мин

1.6K

Интерфейсы * Usability * Искусственный интеллектГолосовые интерфейсы *

Привет! Меня зовут Юля Мицкевич, я операционный директор команды дизайна и разработки разговорных продуктов TORTU компании KODE.

Наша команда уже более 3 лет занимается проектированием и разработкой VUI: от чат-ботов и телефонных систем до виртуальных ассистентов. Мы помогаем бизнесу обрести свой голос. Активно участвуем в проектировании навыков для Сбера, Тинькофф, HeadHunter, Mail.ru Group, Delivery Club и других крупных компаний. Также развиваем профессиональное сообщество: ведём Telegram-канал 'Hey Voice!'

В июне этого года я выступала на Conversation – крупнейшей конференции по разговорному AI, где рассказала, как организовать процесс разработки VUI так, чтобы избежать дорогостоящих ошибок и двойной работы. Делюсь опытом нашей команды, которая узнала много нового о себе и голосе, когда впервые начала заниматься VUI.

Tkinai 25 авг 2021 в 07:00

Оплата не отходя от девайса: как мы реализовали персонализацию в устройствах Sber с помощью распознавания голоса и лица

7 мин

Блог компании SberDevicesМашинное обучение * Искусственный интеллектГолосовые интерфейсы *

Сегодня на рынке изобилие умных домашних устройств. Часто они становятся своего рода центром дома – инструментом, к которому обращаются домочадцы с разными задачами: узнать погоду, найти фильм, заказать еду или такси. Некоторые сценарии платные, и проводить оплату хочется, с одной стороны, быстро и удобно, без лишних телодвижений – чтобы не нужно было брать в руки телефон, заходить в онлайн-банк, вводить реквизиты или коды из пуш-уведомлений. А с другой стороны, хочется безопасности и защищённости, чтобы ребенок, например, не заказал ящик мороженого без ведома взрослых. Мы в SberDevices занялись вопросом персонализированных оплат на наших умных устройствах и придумали, как это сделать с помощью распознавания лица и голоса пользователя. В области лицевой биометрии нашим технологическим партнёром стала команда VisionLabs.

AviPaperno 19 авг 2021 в 07:00

Светодиодная матрица: управляем домашним уютом с помощью голоса

10 мин

14K

Блог компании SberDevicesArduino * Умный домDIY или Сделай самГолосовые интерфейсы *

Туториал

Сейчас стало достаточно модно украшать свои дома с помощью светодиодов. Обычной светодиодной лентой, даже с голосовым управлением, уже сложно удивить кого-либо. Но очень часто забывают, что, расположив светодиоды в виде квадрата или прямоугольника, можно создать что-то похожее на многопиксельный экран. С его помощью можно оживить обстановку в помещении, например отображать на нём прогноз погоды или просто весёлые картинки...

Сегодня и мы попробуем сделать что-то такое, а также добавим управление голосом с помощью виртуальных ассистентов Салют.

Поехали!

+10

The_HardWare_guy 29 июл 2021 в 11:47

Как устроена аппаратная часть SberBox Top: разбираем девайс

5 мин

16K

Блог компании SberDevicesПроизводство и разработка электроники * ГаджетыУмный домГолосовые интерфейсы *

За последние два года команда SberDevices запустила серийное производство нескольких устройств: ТВ-приставки SberBox, смарт-экрана SberPortal, ТВ-медиацентра с умной камерой SberBox Top. Последний значительно расширил функциональность такого типа устройств за счёт камеры, микрофонной матрицы и акустики, а также виртуальных ассистентов на борту. С помощь SberBox Top можно смотреть фильмы и ТВ-каналы, видео в интернете, слушать музыку, заказывать доставку продуктов, управлять умным домом. АI-камера позволяет играть в игры с распознаванием жестов, устраивать AR-спектакли с детьми, проводить видеовстречи на большом экране, заниматься фитнесом. Устройство объединяет в себе возможности смарт-экрана и умной колонки. Взаимодействовать с ним можно с помощью голоса, жестов и пульта. Чтобы использовать девайс, нужно только подключить его к телевизору или монитору – любому устройству отображения с HDMI. (Многие функции при этом доступны и без использования экрана.) И, конечно, нужен интернет.

Все эти возможности нужно было уместить в довольно компактный корпус, обеспечив нужную производительность, и при этом не допустить перегрева.

Давайте разберём наш гаджет и посмотрим, как устроена его аппаратная часть.

Поехали!

neuroonet 28 июл 2021 в 23:39

Новое слово в сфере голосового ИИ: разработан прототип детектора лжи для колл-центров

3 мин

4.7K

Блог компании Neuro.netИскусственный интеллектГолосовые интерфейсы * Будущее здесьАлгоритмы *

Перевод

Голосовые агенты становятся все совершеннее, буквально каждый месяц появляются новые интересные наработки. Одна из них — немецкий проект по созданию детектора лжи для колл-центров. Речь идет о создании системы, которая может с высокой степенью вероятности определить, говорит звонящий в колл-центр абонент правду либо же пытается приврать/приукрасить свои утверждения или скрыть намерения.

Система базируется на специфическом дата-сете, сформированном из аудио-записей нескольких десятков преподавателей и студентов. Добровольцы участвовали в дебатах, обсуждая острые темы вроде смертной казни и платного обучения, а произносимые речи записывались на диктофон. О результатах проекта — под катом.

Читать дальше →

+12

neuroonet 23 июл 2021 в 22:00

ИИ в качестве актера озвучки звучит очень по-человечески. И цифровых агентов уже можно нанять

6 мин

10K

Блог компании Neuro.netБудущее здесьГолосовые интерфейсы * Искусственный интеллектМашинное обучение *

Перевод

Голосовые агенты становятся все более совершенными. Мы уже рассказывали о том, насколько хорошо они понимают собеседника-человека и способны воспроизводить речь. Использовать цифровых агентов можно не только в качестве «сотрудника» колл-центра, но и в качестве актеров озвучки/дубляжа. Хороший пример — работа компании WellSaid Labs, о которой и рассказывается в этой статье.

Компания WellSaid Labs на своем сайте уведомляет посетителей, что у нее в запасе «восемь новых цифровых актеров озвучки». Тобин «энергичен и проницателен». Пейдж «уравновешенна и выразительна». Ава «отточенная, уверенная в себе и профессиональная».

Каждый цифровой агент использует голос реального актера, конечно, с согласия последнего. Теперь компании могут лицензировать эти голоса, чтобы рассказывать обо всем, что нужно бизнесу. Они просто вводят текст в голосовой движок, и на выходе получается четкий аудиоклип с естественным звучанием.

+10

nkarpov 22 июл 2021 в 10:37

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Простой

5 мин

9.3K

Блог компании SberDevicesМашинное обучение * Искусственный интеллектNatural Language Processing * Голосовые интерфейсы *

Туториал

Меня зовут Николай, когда в 2009 году я защищал диссертацию по распознаванию речи, скептики мне говорили, что слишком поздно, так как Microsoft и Google уже “всё сделали”. Сейчас в SberDevices я обучаю модели распознавания речи, которые используются в семействе виртуальных ассистентов Салют и других банковских сервисах. Я расскажу, как обучил модель распознавания речи, используя Common Voice и недавно открытый датасет Golos. Ошибка распознавания составила от 3 до 11 % в зависимости от типа тестовой выборки, что очень неплохо для открытой модели.

Не так давно наша команда подготовила и опубликовала общедоступный датасет Golos. Почему встал вопрос об обучении и публикации акустической модели QuartzNet? Во-первых, чтобы узнать, какую точность достигает система распознавания речи при обучении на новом датасете. Во-вторых, обучение само по себе ресурсоёмкое, поэтому сообществу полезно иметь в открытом доступе предобученную модель на русском языке. Полная версия статьи опубликована на сайте arxiv.org и будет представлена на конференции INTERSPEECH2021.

APPKODE 13 июл 2021 в 14:19

Как стать крутым VUI-дизайнером: пошаговое руководство

8 мин

5.5K

ДизайнГолосовые интерфейсы *

Впервые люди познакомились с голосовым ассистентом 10 лет назад, когда Apple презентовала Siri. Тогда никто не ожидал, что voice tech станет движущей силой инноваций. Высокий спрос привёл к тому, что компании начали активно развивать экспертизу в проектировании голосовых интерфейсов и искать специалистов, которые в этом разбираются.

Делимся опытом нашей VUI-команды TORTU и рассказываем, как попасть в индустрию, прокачать свой скилл и стать крутым VUI-дизайнером.

1 2 ...

7 8

10 11 ...

14 15

Голосовые интерфейсы *

Генеративные диалоговые модели: как мы разговорили виртуальных ассистентов Салют

NLP в нашей жизни: почему важно научить машину понимать человеческий язык?

Мир против интентов

Бесплатное распознавание речи для всех желающих

Распознавание речи в Telegram «на лету»

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

Обзор методов улучшения речи и шумоподавления: от классики к SotA

Синтезированные ИИ голоса актеров позволяют обходиться без иностранной озвучки

Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др

Как мы сделали доступными все технологии Сбера на единой платформе: итоги первого года работы SmartMarket

Последние обновления моделей распознавания речи из Silero Models

Голосовые ИИ-технологии: 3 перспективных направления, которые постепенно меняют мир

Учиться на ошибках: 3 кейса, которые научили нас грамотно проектировать VUI

Ближайшие события

Оплата не отходя от девайса: как мы реализовали персонализацию в устройствах Sber с помощью распознавания голоса и лица

Светодиодная матрица: управляем домашним уютом с помощью голоса

Как устроена аппаратная часть SberBox Top: разбираем девайс

Новое слово в сфере голосового ИИ: разработан прототип детектора лжи для колл-центров

ИИ в качестве актера озвучки звучит очень по-человечески. И цифровых агентов уже можно нанять

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Как стать крутым VUI-дизайнером: пошаговое руководство

Вклад авторов