Как стать автором
Обновить
1.11

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

Время на прочтение 4 мин
Количество просмотров 1.6K

Одним из важных шагов, используемых людьми в поиске ответа на вопрос, является понимание того, какой именно тип ответа устроит автора. К примеру, на вопрос: "Который час?", мы ожидаем услышать ответ с типом "время", а на вопрос "Где родился Иван Петров?" -- ответ с типом "населённый пункт". То же самое верно и для вопросно-ответных систем (Question-Answering, QA), целью которых является поиск ответа на фактографические вопросы. В данной статье я представлю модуль определения ожидаемого типа ответа на вопрос (Expected Answer Type, EAT), который способен определять не только один класс, но и строить иерархию классов в качестве прогнозного значения. Модуль предоставляется как в виде веб-интерфейса (UI) так и в виде RESTful API. Данная функциональность позволяет конечным пользователям получать предсказания типа ответа для 104 языков, видеть достоверность прогноза и оставлять обратную связь. Кроме того, API позволяет исследователям и разработчикам интегрировать EAT-классификацию в свои системы.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Обзор методов улучшения речи и шумоподавления: от классики к SotA

Время на прочтение 10 мин
Количество просмотров 11K

Всем привет! Меня зовут Оля Яковенко, я разработчик в MTS AI, занимаюсь задачами по автоматической обработке сигналов. В частности, на данный момент я исследую различные подходы шумоподавления для последующего распознавания речи, и сегодня я хотела бы поделиться с вами обзором и некоторыми находками на эту тему.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 9

Синтезированные ИИ голоса актеров позволяют обходиться без иностранной озвучки

Время на прочтение 3 мин
Количество просмотров 7K

Следующий фильм или ТВ-шоу, которые вы будете смотреть, могут оказаться "работой" искусственного интеллекта. Представьте, что актеры Голливуда, Болливуда или любых других студий говорят на родном для вас языке в любом из новых фильмов или шоу. На самом деле, это вполне реальная история, вот только голоса могут не принадлежать человеку - все это дипфейки, правда, не мошеннические, а созданные самими киностудиями с использованием ИИ.

Уже сейчас видео- и голосовые дипфейки вполне сносно копируют оригинал А в ближайшем будущем эти технологии станут еще более совершенными. Компании смогут получать копии голосов актеров, говорящих на самых разных языках. И это будут не лишенные выражения "голоса" вроде современных цифровых агентов, а очень реалистичные голоса, снабженные эмоциями. Цифровые актеры смогут плакать, смеяться, бормотать - причем максимально близко к оригинальной озвучке.

Читать далее
Всего голосов 15: ↑12 и ↓3 +9
Комментарии 16

Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др

Время на прочтение 8 мин
Количество просмотров 10K

Всем привет! Я руковожу «Наносемантикой», сегодня хотел бы поделиться с вами результатами нашего сравнения сервисов распознавания речи (ASR). Мы собрали и разметили тестовый датасет на русском языке, прогнали через сервисы ASR, проанализировали результаты работы разных вендоров, собрали основные выводы.

Получилось интересно, подробности в статье.

Читать далее
Всего голосов 23: ↑14 и ↓9 +5
Комментарии 9

Истории

Как мы сделали доступными все технологии Сбера на единой платформе: итоги первого года работы SmartMarket

Время на прочтение 7 мин
Количество просмотров 4.2K

Год назад, в сентябре 2020 года команда SberDevices выпустила семейство виртуальных ассистентов Салют. В семействе три персонажа — Сбер, Афина и Джой. Они доступны на умных устройствах Sber, устройствах под управлением Салют ТВ и в мобильных приложениях СберБанк Онлайн и Сбер Салют.

Вместе с этим запуском мы запустили первую версию платформы SmartMarket. С инструментами SmartMarket внешние разработчики и бизнес получили возможность создавать приложения для виртуальных ассистентов Салют. 

Иван Смирнов, руководитель NLP-Platform и SmartMarket рассказывает, как мы собрали вместе инструменты и технологии Сбера и к чему удалось прийти за год.

Читать далее
Всего голосов 9: ↑3 и ↓6 -3
Комментарии 7

Последние обновления моделей распознавания речи из Silero Models

Время на прочтение 2 мин
Количество просмотров 4.8K

quality_growth


Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.


В этот раз мы можем порадовать вас:


  • Как большими, так и маленькими моделями;
  • Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
  • Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
  • Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 0

Голосовые ИИ-технологии: 3 перспективных направления, которые постепенно меняют мир

Время на прочтение 4 мин
Количество просмотров 3.3K
image

Системы, которые способны выполнять рутинные операции вместо человека, помогают поддерживать глобальную экономику. Собственно, они делают это десятилетиями — такие системы работают на благо цивилизации давно. Но что насчет систем, которые могут общаться и взаимодействовать с пользователем? Если говорить о полноценном общении, то пока что его нет, причина здесь одна — наша речь слишком сложная.

Каждый, кто пробовал взаимодействовать с цифровыми ассистентами вроде Alexa и Siri, видел и ощущал разницу между «общением» с ними и полноценным разговором с человеком. Но прогресс не стоит на месте. В ближайшем или не очень будущем продвинутые ИИ-собеседники обязательно появятся, ведь к этому все и идет. В целом, эта технология способна изменить мир. Под катом — обсуждение трех инновационных технологий, которые стимулируют развитие всей отрасли.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 1

Учиться на ошибках: 3 кейса, которые научили нас грамотно проектировать VUI

Время на прочтение 7 мин
Количество просмотров 1.5K

Привет! Меня зовут Юля Мицкевич, я операционный директор команды дизайна и разработки разговорных продуктов TORTU компании KODE. 

Наша команда уже более 3 лет занимается проектированием и разработкой VUI: от чат-ботов и телефонных систем до виртуальных ассистентов. Мы помогаем бизнесу обрести свой голос. Активно участвуем в проектировании навыков для Сбера, Тинькофф, HeadHunter, Mail.ru Group, Delivery Club и других крупных компаний. Также развиваем профессиональное сообщество: ведём Telegram-канал 'Hey Voice!'

В июне этого года я выступала на Conversation – крупнейшей конференции по разговорному AI, где рассказала, как организовать процесс разработки VUI так, чтобы избежать дорогостоящих ошибок и двойной работы. Делюсь опытом нашей команды, которая узнала много нового о себе и голосе, когда впервые начала заниматься VUI.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

Оплата не отходя от девайса: как мы реализовали персонализацию в устройствах Sber с помощью распознавания голоса и лица

Время на прочтение 7 мин
Количество просмотров 2.7K

Сегодня на рынке изобилие умных домашних устройств. Часто они становятся своего рода центром дома – инструментом, к которому обращаются домочадцы с разными задачами: узнать погоду, найти фильм, заказать еду или такси. Некоторые сценарии платные, и проводить оплату хочется, с одной стороны, быстро и удобно, без лишних телодвижений – чтобы не нужно было брать в руки телефон, заходить в онлайн-банк, вводить реквизиты или коды из пуш-уведомлений. А с другой стороны, хочется безопасности и защищённости, чтобы ребенок, например, не заказал ящик мороженого без ведома взрослых. Мы в SberDevices занялись вопросом персонализированных оплат на наших умных устройствах и придумали, как это сделать с помощью распознавания лица и голоса пользователя. В области лицевой биометрии нашим технологическим партнёром стала команда VisionLabs.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 19

Светодиодная матрица: управляем домашним уютом с помощью голоса

Время на прочтение 10 мин
Количество просмотров 11K

Сейчас стало достаточно модно украшать свои дома с помощью светодиодов. Обычной светодиодной лентой, даже с голосовым управлением, уже сложно удивить кого-либо. Но очень часто забывают, что, расположив светодиоды в виде квадрата или прямоугольника, можно создать что-то похожее на многопиксельный экран. С его помощью можно оживить обстановку в помещении, например отображать на нём прогноз погоды или просто весёлые картинки...

Сегодня и мы попробуем сделать что-то такое, а также добавим управление голосом с помощью виртуальных ассистентов Салют.

Поехали!
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 11

Как устроена аппаратная часть SberBox Top: разбираем девайс

Время на прочтение 5 мин
Количество просмотров 13K

За последние два года команда SberDevices запустила серийное производство нескольких устройств: ТВ-приставки SberBox, смарт-экрана SberPortal, ТВ-медиацентра с умной камерой SberBox Top. Последний значительно расширил функциональность такого типа устройств за счёт камеры, микрофонной матрицы и акустики, а также виртуальных ассистентов на борту. С помощь SberBox Top можно смотреть фильмы и ТВ-каналы, видео в интернете, слушать музыку, заказывать доставку продуктов, управлять умным домом. АI-камера позволяет играть в игры с распознаванием жестов, устраивать AR-спектакли с детьми, проводить видеовстречи на большом экране, заниматься фитнесом. Устройство объединяет в себе возможности смарт-экрана и умной колонки. Взаимодействовать с ним можно с помощью голоса, жестов и пульта. Чтобы использовать девайс, нужно только подключить его к телевизору или монитору – любому устройству отображения с HDMI. (Многие функции при этом доступны и без использования экрана.) И, конечно, нужен интернет. 

Все эти возможности нужно было уместить в довольно компактный корпус, обеспечив нужную производительность, и при этом не допустить перегрева. 

Давайте разберём наш гаджет и посмотрим, как устроена его аппаратная часть.

Поехали!
Всего голосов 15: ↑12 и ↓3 +9
Комментарии 24

Новое слово в сфере голосового ИИ: разработан прототип детектора лжи для колл-центров

Время на прочтение 3 мин
Количество просмотров 4.5K
image

Голосовые агенты становятся все совершеннее, буквально каждый месяц появляются новые интересные наработки. Одна из них — немецкий проект по созданию детектора лжи для колл-центров. Речь идет о создании системы, которая может с высокой степенью вероятности определить, говорит звонящий в колл-центр абонент правду либо же пытается приврать/приукрасить свои утверждения или скрыть намерения.

Система базируется на специфическом дата-сете, сформированном из аудио-записей нескольких десятков преподавателей и студентов. Добровольцы участвовали в дебатах, обсуждая острые темы вроде смертной казни и платного обучения, а произносимые речи записывались на диктофон. О результатах проекта — под катом.
Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 29

ИИ в качестве актера озвучки звучит очень по-человечески. И цифровых агентов уже можно нанять

Время на прочтение 6 мин
Количество просмотров 9.5K
image

Голосовые агенты становятся все более совершенными. Мы уже рассказывали о том, насколько хорошо они понимают собеседника-человека и способны воспроизводить речь. Использовать цифровых агентов можно не только в качестве «сотрудника» колл-центра, но и в качестве актеров озвучки/дубляжа. Хороший пример — работа компании WellSaid Labs, о которой и рассказывается в этой статье.

Компания WellSaid Labs на своем сайте уведомляет посетителей, что у нее в запасе «восемь новых цифровых актеров озвучки». Тобин «энергичен и проницателен». Пейдж «уравновешенна и выразительна». Ава «отточенная, уверенная в себе и профессиональная».

Каждый цифровой агент использует голос реального актера, конечно, с согласия последнего. Теперь компании могут лицензировать эти голоса, чтобы рассказывать обо всем, что нужно бизнесу. Они просто вводят текст в голосовой движок, и на выходе получается четкий аудиоклип с естественным звучанием.
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 10

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 7.2K

Меня зовут Николай, когда в 2009 году я защищал диссертацию по распознаванию речи, скептики мне говорили, что слишком поздно, так как Microsoft и Google уже “всё сделали”. Сейчас в SberDevices я обучаю модели распознавания речи, которые используются в семействе виртуальных ассистентов Салют и других банковских сервисах. Я расскажу, как обучил модель распознавания речи, используя Common Voice и недавно открытый датасет Golos. Ошибка распознавания составила от 3 до 11 % в зависимости от типа тестовой выборки, что очень неплохо для открытой модели.

Не так давно наша команда подготовила и опубликовала общедоступный датасет Golos. Почему встал вопрос об обучении и публикации акустической модели QuartzNet? Во-первых, чтобы узнать, какую точность достигает система распознавания речи при обучении на новом датасете. Во-вторых, обучение само по себе ресурсоёмкое, поэтому сообществу полезно иметь в открытом доступе предобученную модель на русском языке. Полная версия статьи опубликована на сайте arxiv.org и будет представлена на конференции INTERSPEECH2021

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 3

Как стать крутым VUI-дизайнером: пошаговое руководство

Время на прочтение 8 мин
Количество просмотров 4.3K

Впервые люди познакомились с голосовым ассистентом 10 лет назад, когда Apple презентовала Siri. Тогда никто не ожидал, что voice tech станет движущей силой инноваций. Высокий спрос привёл к тому, что компании начали активно развивать экспертизу в проектировании голосовых интерфейсов и искать специалистов, которые в этом разбираются.

Делимся опытом нашей VUI-команды TORTU и рассказываем, как попасть в индустрию, прокачать свой скилл и стать крутым VUI-дизайнером.

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Комментарии 6

Голосовой ИИ: технологии под капотом цифрового агента

Время на прочтение 5 мин
Количество просмотров 3.5K
image

Привет, Хабр! Сегодня мы предлагаем поговорить про так называемый голосовой искусственный интеллект и про технологии, которые делают его «умным». Кроме того, поговорим и о «магии» нашей голосовой платформы — о том, что позволяет голосовому агенту вести нормальную беседу с человеком.

Технологии достигли настолько высокого уровня, что даже профессионалы, которые занимаются разработкой голосовых технологий, зачастую затрудняются отличить робота от человека. Кстати, эта статья подготовлена по выступлению СТО Neuro.net Игоря Десятникова на Tech Week 2021. Если не хочется читать статью — вот видео, если же нужны подробности, то все самое интересное — под катом.
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 0

Лучшие навыки Алисы и советы от их разработчиков

Время на прочтение 8 мин
Количество просмотров 46K

Я уже довольно давно разрабатываю навыки для Яндекс.Алисы, но пока не создал ни одного популярного. Недавно мне стало интересно: а какие навыки становятся самыми популярными, и кто те люди, которые их создают? Чтобы ответить на этот вопрос, я проанализировал каталог Алисы и опросил 20 разработчиков, чьи навыки набрали наибольшее количество оценок "пять". Похоже, что к их советам стоит прислушаться.

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 8

Игровые навыки у голосовых помощников

Время на прочтение 6 мин
Количество просмотров 2.3K

Любая технология, ставшая популярной, чему-то этим обязана. Одной из причин популярности голосовых помощников стали так называемые игровые навыки — умение играть с пользователями. Давайте поговорим о современном состоянии этой отрасли, чем интересны голосовые навыки и как они могут развиваться в ближайшем будущем.

Читать далее
Всего голосов 18: ↑17 и ↓1 +16
Комментарии 1

Капсула Мини: разбираем новую умную колонку

Время на прочтение 2 мин
Количество просмотров 15K

Привет, Хабр! В моей прошлой статье я разбирал умную колонку Капсула с Марусей на борту. Недавно мне в руки попала еще не вышедшая новая версия. И мне уже не терпится посмотреть, что же у нее внутри! А также сравнить с Капсулой, которую я разбирал ранее. Сегодня новая колонка уже вышла официально, и я могу опубликовать свой разбор. Итак, приступим.
Читать дальше →
Всего голосов 33: ↑31 и ↓2 +29
Комментарии 20

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

Время на прочтение 4 мин
Количество просмотров 12K

Как (и зачем?) написать голосовой дневник, используя open source инструменты.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 9

Вклад авторов