Обновить
20.2

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Генеративные диалоговые модели: как мы разговорили виртуальных ассистентов Салют

Время на прочтение9 мин
Количество просмотров6.7K

Порой люди обращаются к искусственному интеллекту не для того, чтобы заказать еду, найти подходящий фильм или решить какую-то ещё свою задачу, а для того, чтобы просто поболтать. Например, потому что грустно, а рядом нет тех, с кем было бы удобно про это поговорить. И пусть виртуальные помощники пока не заменяют настоящих друзей или близких людей (они и не должны), но всё же они могут поднять настроение, помочь снизить уровень напряжения. Чтобы такое общение было живым и действительно интересным, мы разработали и применяем мощные разговорные модели на русском языке для виртуальных ассистентов Салют в режиме «Собеседник». Так, за Сбера с пользователем общается SBERT (retrieval-модель), за Джой — ruGPT-3 (генеративная модель), а за Афину — обе сразу. Поговорим сегодня о генеративной части.

Передаю слово моему коллеге, руководителю RnD NLP SberDevices Валерию Терновскому.

Читать далее

NLP в нашей жизни: почему важно научить машину понимать человеческий язык?

Время на прочтение7 мин
Количество просмотров3K

Привет, Хабр! Сегодня мы хотим поговорить о зеленом купечестве и воздухонепроницаемом тринадцатом веке. Нашей задачей будет разделить арахисовый угол, являющийся краеугольным знанием будущего века. Но, не боясь этого затмения, мы сегодня прикоснемся к безопасному, неугасающему артефакту задач….всё, хватит. Генерировать подобный бред не составляет ничего сложного для нейросети, но при этом оказывается непростой задачей для человека. В этом посте мы как раз обсудим, почему так происходит, чем отличается естественная речь, почему технологии NLP становятся все более полезными с каждым днём, а главное — какие препятствия приходится преодолевать, чтобы машина поняла нас и смогла “сказать” что-то действительное осмысленное.

Читать далее

Мир против интентов

Время на прочтение16 мин
Количество просмотров3K

Я давно собирался и наконец-то решился высказать и доказать одну крамольную мысль. Датасайентисты из области NLU и NLP могут заранее готовит кирпичи, чтобы швырнуть ими в меня. Будет много жареного!

Начнём с главного - мир ошибается. Де факто! Диалоговые технологии развиваются не в том направлении и не теми темпами. Сайентисты научили алгоритмы превращать звук голоса в текст, а текст обратно в слышимую речь. Но между этими двумя частями находится задача понимания СМЫСЛА сказанного - того, что было заложено в произнесённый текст. “Рот” и “уши” сделать сумели, а к “голове” их прикрепить не получается. Вернее, то что подают за решение, решением не является. То что выдают за современные технологии IT-гиганты такой “детский сад”, что мама дорогая! Как это не стыдно выкладывать в мир таким компаниям как Гугл, Майкрософт и Яндекс. Примитивизм и убогость голосовых навыков просто удручает.

Узнать всё

Распознавание речи в Telegram «на лету»

Время на прочтение2 мин
Количество просмотров11K

Задача распознавания голосовых сообщений в Telegram уже давно не новая. На эту тему написано много статей, разработано немало Telegram-ботов. С некоторыми решениями я ознакомился во время работы над функцией распознавания голосовых напоминаний для бота @RemindMegaBot и заметил, что в этих решениях используется не всегда оправданный подход:

Для распознавания речи аудиофайл загружается на диск.

Возникает справедливый вопрос — неужели нельзя обойтись без записи файла на диск? Ведь это освободит операционную систему от лишних операций и сократит время обработки данных!

Почему же разработчики используют именно такой подход?

Читать далее

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

Время на прочтение4 мин
Количество просмотров1.9K

Одним из важных шагов, используемых людьми в поиске ответа на вопрос, является понимание того, какой именно тип ответа устроит автора. К примеру, на вопрос: "Который час?", мы ожидаем услышать ответ с типом "время", а на вопрос "Где родился Иван Петров?" -- ответ с типом "населённый пункт". То же самое верно и для вопросно-ответных систем (Question-Answering, QA), целью которых является поиск ответа на фактографические вопросы. В данной статье я представлю модуль определения ожидаемого типа ответа на вопрос (Expected Answer Type, EAT), который способен определять не только один класс, но и строить иерархию классов в качестве прогнозного значения. Модуль предоставляется как в виде веб-интерфейса (UI) так и в виде RESTful API. Данная функциональность позволяет конечным пользователям получать предсказания типа ответа для 104 языков, видеть достоверность прогноза и оставлять обратную связь. Кроме того, API позволяет исследователям и разработчикам интегрировать EAT-классификацию в свои системы.

Читать далее

Обзор методов улучшения речи и шумоподавления: от классики к SotA

Время на прочтение10 мин
Количество просмотров16K

Всем привет! Меня зовут Оля Яковенко, я разработчик в MTS AI, занимаюсь задачами по автоматической обработке сигналов. В частности, на данный момент я исследую различные подходы шумоподавления для последующего распознавания речи, и сегодня я хотела бы поделиться с вами обзором и некоторыми находками на эту тему.

Читать далее

Синтезированные ИИ голоса актеров позволяют обходиться без иностранной озвучки

Время на прочтение3 мин
Количество просмотров7.5K

Следующий фильм или ТВ-шоу, которые вы будете смотреть, могут оказаться "работой" искусственного интеллекта. Представьте, что актеры Голливуда, Болливуда или любых других студий говорят на родном для вас языке в любом из новых фильмов или шоу. На самом деле, это вполне реальная история, вот только голоса могут не принадлежать человеку - все это дипфейки, правда, не мошеннические, а созданные самими киностудиями с использованием ИИ.

Уже сейчас видео- и голосовые дипфейки вполне сносно копируют оригинал А в ближайшем будущем эти технологии станут еще более совершенными. Компании смогут получать копии голосов актеров, говорящих на самых разных языках. И это будут не лишенные выражения "голоса" вроде современных цифровых агентов, а очень реалистичные голоса, снабженные эмоциями. Цифровые актеры смогут плакать, смеяться, бормотать - причем максимально близко к оригинальной озвучке.

Читать далее

Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др

Время на прочтение8 мин
Количество просмотров13K

Всем привет! Я руковожу «Наносемантикой», сегодня хотел бы поделиться с вами результатами нашего сравнения сервисов распознавания речи (ASR). Мы собрали и разметили тестовый датасет на русском языке, прогнали через сервисы ASR, проанализировали результаты работы разных вендоров, собрали основные выводы.

Получилось интересно, подробности в статье.

Читать далее

Как мы сделали доступными все технологии Сбера на единой платформе: итоги первого года работы SmartMarket

Время на прочтение7 мин
Количество просмотров4.9K

Год назад, в сентябре 2020 года команда SberDevices выпустила семейство виртуальных ассистентов Салют. В семействе три персонажа — Сбер, Афина и Джой. Они доступны на умных устройствах Sber, устройствах под управлением Салют ТВ и в мобильных приложениях СберБанк Онлайн и Сбер Салют.

Вместе с этим запуском мы запустили первую версию платформы SmartMarket. С инструментами SmartMarket внешние разработчики и бизнес получили возможность создавать приложения для виртуальных ассистентов Салют. 

Иван Смирнов, руководитель NLP-Platform и SmartMarket рассказывает, как мы собрали вместе инструменты и технологии Сбера и к чему удалось прийти за год.

Читать далее

Последние обновления моделей распознавания речи из Silero Models

Время на прочтение2 мин
Количество просмотров6.3K

quality_growth


Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.


В этот раз мы можем порадовать вас:


  • Как большими, так и маленькими моделями;
  • Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
  • Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
  • Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;
Читать дальше →

Голосовые ИИ-технологии: 3 перспективных направления, которые постепенно меняют мир

Время на прочтение4 мин
Количество просмотров3.7K
image

Системы, которые способны выполнять рутинные операции вместо человека, помогают поддерживать глобальную экономику. Собственно, они делают это десятилетиями — такие системы работают на благо цивилизации давно. Но что насчет систем, которые могут общаться и взаимодействовать с пользователем? Если говорить о полноценном общении, то пока что его нет, причина здесь одна — наша речь слишком сложная.

Каждый, кто пробовал взаимодействовать с цифровыми ассистентами вроде Alexa и Siri, видел и ощущал разницу между «общением» с ними и полноценным разговором с человеком. Но прогресс не стоит на месте. В ближайшем или не очень будущем продвинутые ИИ-собеседники обязательно появятся, ведь к этому все и идет. В целом, эта технология способна изменить мир. Под катом — обсуждение трех инновационных технологий, которые стимулируют развитие всей отрасли.
Читать дальше →

Учиться на ошибках: 3 кейса, которые научили нас грамотно проектировать VUI

Время на прочтение7 мин
Количество просмотров1.6K

Привет! Меня зовут Юля Мицкевич, я операционный директор команды дизайна и разработки разговорных продуктов TORTU компании KODE. 

Наша команда уже более 3 лет занимается проектированием и разработкой VUI: от чат-ботов и телефонных систем до виртуальных ассистентов. Мы помогаем бизнесу обрести свой голос. Активно участвуем в проектировании навыков для Сбера, Тинькофф, HeadHunter, Mail.ru Group, Delivery Club и других крупных компаний. Также развиваем профессиональное сообщество: ведём Telegram-канал 'Hey Voice!'

В июне этого года я выступала на Conversation – крупнейшей конференции по разговорному AI, где рассказала, как организовать процесс разработки VUI так, чтобы избежать дорогостоящих ошибок и двойной работы. Делюсь опытом нашей команды, которая узнала много нового о себе и голосе, когда впервые начала заниматься VUI.

Читать далее

Ближайшие события

Оплата не отходя от девайса: как мы реализовали персонализацию в устройствах Sber с помощью распознавания голоса и лица

Время на прочтение7 мин
Количество просмотров3K

Сегодня на рынке изобилие умных домашних устройств. Часто они становятся своего рода центром дома – инструментом, к которому обращаются домочадцы с разными задачами: узнать погоду, найти фильм, заказать еду или такси. Некоторые сценарии платные, и проводить оплату хочется, с одной стороны, быстро и удобно, без лишних телодвижений – чтобы не нужно было брать в руки телефон, заходить в онлайн-банк, вводить реквизиты или коды из пуш-уведомлений. А с другой стороны, хочется безопасности и защищённости, чтобы ребенок, например, не заказал ящик мороженого без ведома взрослых. Мы в SberDevices занялись вопросом персонализированных оплат на наших умных устройствах и придумали, как это сделать с помощью распознавания лица и голоса пользователя. В области лицевой биометрии нашим технологическим партнёром стала команда VisionLabs.

Читать далее

Светодиодная матрица: управляем домашним уютом с помощью голоса

Время на прочтение10 мин
Количество просмотров14K

Сейчас стало достаточно модно украшать свои дома с помощью светодиодов. Обычной светодиодной лентой, даже с голосовым управлением, уже сложно удивить кого-либо. Но очень часто забывают, что, расположив светодиоды в виде квадрата или прямоугольника, можно создать что-то похожее на многопиксельный экран. С его помощью можно оживить обстановку в помещении, например отображать на нём прогноз погоды или просто весёлые картинки...

Сегодня и мы попробуем сделать что-то такое, а также добавим управление голосом с помощью виртуальных ассистентов Салют.

Поехали!

Как устроена аппаратная часть SberBox Top: разбираем девайс

Время на прочтение5 мин
Количество просмотров16K

За последние два года команда SberDevices запустила серийное производство нескольких устройств: ТВ-приставки SberBox, смарт-экрана SberPortal, ТВ-медиацентра с умной камерой SberBox Top. Последний значительно расширил функциональность такого типа устройств за счёт камеры, микрофонной матрицы и акустики, а также виртуальных ассистентов на борту. С помощь SberBox Top можно смотреть фильмы и ТВ-каналы, видео в интернете, слушать музыку, заказывать доставку продуктов, управлять умным домом. АI-камера позволяет играть в игры с распознаванием жестов, устраивать AR-спектакли с детьми, проводить видеовстречи на большом экране, заниматься фитнесом. Устройство объединяет в себе возможности смарт-экрана и умной колонки. Взаимодействовать с ним можно с помощью голоса, жестов и пульта. Чтобы использовать девайс, нужно только подключить его к телевизору или монитору – любому устройству отображения с HDMI. (Многие функции при этом доступны и без использования экрана.) И, конечно, нужен интернет. 

Все эти возможности нужно было уместить в довольно компактный корпус, обеспечив нужную производительность, и при этом не допустить перегрева. 

Давайте разберём наш гаджет и посмотрим, как устроена его аппаратная часть.

Поехали!

Новое слово в сфере голосового ИИ: разработан прототип детектора лжи для колл-центров

Время на прочтение3 мин
Количество просмотров4.7K
image

Голосовые агенты становятся все совершеннее, буквально каждый месяц появляются новые интересные наработки. Одна из них — немецкий проект по созданию детектора лжи для колл-центров. Речь идет о создании системы, которая может с высокой степенью вероятности определить, говорит звонящий в колл-центр абонент правду либо же пытается приврать/приукрасить свои утверждения или скрыть намерения.

Система базируется на специфическом дата-сете, сформированном из аудио-записей нескольких десятков преподавателей и студентов. Добровольцы участвовали в дебатах, обсуждая острые темы вроде смертной казни и платного обучения, а произносимые речи записывались на диктофон. О результатах проекта — под катом.
Читать дальше →

ИИ в качестве актера озвучки звучит очень по-человечески. И цифровых агентов уже можно нанять

Время на прочтение6 мин
Количество просмотров10K
image

Голосовые агенты становятся все более совершенными. Мы уже рассказывали о том, насколько хорошо они понимают собеседника-человека и способны воспроизводить речь. Использовать цифровых агентов можно не только в качестве «сотрудника» колл-центра, но и в качестве актеров озвучки/дубляжа. Хороший пример — работа компании WellSaid Labs, о которой и рассказывается в этой статье.

Компания WellSaid Labs на своем сайте уведомляет посетителей, что у нее в запасе «восемь новых цифровых актеров озвучки». Тобин «энергичен и проницателен». Пейдж «уравновешенна и выразительна». Ава «отточенная, уверенная в себе и профессиональная».

Каждый цифровой агент использует голос реального актера, конечно, с согласия последнего. Теперь компании могут лицензировать эти голоса, чтобы рассказывать обо всем, что нужно бизнесу. Они просто вводят текст в голосовой движок, и на выходе получается четкий аудиоклип с естественным звучанием.

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров9.3K

Меня зовут Николай, когда в 2009 году я защищал диссертацию по распознаванию речи, скептики мне говорили, что слишком поздно, так как Microsoft и Google уже “всё сделали”. Сейчас в SberDevices я обучаю модели распознавания речи, которые используются в семействе виртуальных ассистентов Салют и других банковских сервисах. Я расскажу, как обучил модель распознавания речи, используя Common Voice и недавно открытый датасет Golos. Ошибка распознавания составила от 3 до 11 % в зависимости от типа тестовой выборки, что очень неплохо для открытой модели.

Не так давно наша команда подготовила и опубликовала общедоступный датасет Golos. Почему встал вопрос об обучении и публикации акустической модели QuartzNet? Во-первых, чтобы узнать, какую точность достигает система распознавания речи при обучении на новом датасете. Во-вторых, обучение само по себе ресурсоёмкое, поэтому сообществу полезно иметь в открытом доступе предобученную модель на русском языке. Полная версия статьи опубликована на сайте arxiv.org и будет представлена на конференции INTERSPEECH2021

Читать далее

Как стать крутым VUI-дизайнером: пошаговое руководство

Время на прочтение8 мин
Количество просмотров5.5K

Впервые люди познакомились с голосовым ассистентом 10 лет назад, когда Apple презентовала Siri. Тогда никто не ожидал, что voice tech станет движущей силой инноваций. Высокий спрос привёл к тому, что компании начали активно развивать экспертизу в проектировании голосовых интерфейсов и искать специалистов, которые в этом разбираются.

Делимся опытом нашей VUI-команды TORTU и рассказываем, как попасть в индустрию, прокачать свой скилл и стать крутым VUI-дизайнером.

Читать далее