Четыре концепции в проектировании, способствующие повышению качества аудио вещей (AoT) / Habr

Ниже представлен перевод статьи, опубликованной в EDN.

Интернет вещей (IoT) - это не одноколейный конь, он воплощает в себе широкий спектр вариантов использования. Одно из ответвлений, Audio of Things или AoT, охватывает аудиотехнологии, такие как голосовое управление, связь, воспроизведение и восприятие, а также их развивающиеся взаимосвязи с интеллектуальными устройствами и машинами.

Этот термин был придуман DSP Concepts, дизайн-центром, который предоставляет производителям микросхем и OEM-производителям рабочие процессы в режиме реального времени для встраивания звуковых и голосовых функций в проекты с поддержкой звука. Компания утверждает, что ее строительные блоки AoT не зависят от процессора и полностью настраиваются.

По словам Саймона Форреста, главного технологического аналитика Futuresource Consulting, Audio of Things в настоящее время является постоянно расширяющейся предпосылкой из-за глобального спроса на продукты, ориентированные на аудио. “Адресный рынок аудиопродукции в 2021 году составит чуть менее 3,5 миллиардов устройств, из которых 2,1 миллиарда интегрированы в обработку голоса”.

Рисунок 1. В Audio of Things используется широкий спектр технологий, включая голосовое управление, связь, воспроизведение и восприятие.

Источник: DSP Concept. В то время как люди взаимодействуют с машинами, вставляя сложную серию нажатий кнопок, понятных машине, более умные устройства теперь используют человеко-машинные интерфейсы на основе речи (HMI), используя возможности обработки звука, доступные на периферийных устройствах. Ниже приводится краткое изложение ключевых тенденций в дизайне, которые помогают разработчикам преодолевать уникальные проблемы, связанные со звуковым интерфейсом и дизайном намерений.

От облака на передний край

Интеллектуальные устройства или машины с голосовыми интерфейсами используют двусторонний подход для определения цели. Модуль автоматического распознавания речи (ASR) используется для преобразования речи в текст, а затем действие определяется путем анализа этого текста с помощью механизма понимания естественного языка (NLU). Как правило, в этих процессах используются платформы облачных вычислений, такие как Amazon Voice Services и Google Assistant, которые используют искусственный интеллект (ИИ) и машинное обучение для обработки чрезвычайно широкого набора запросов и команд и генерирования столь же широкого набора ответов и действий.

Однако, несмотря на постоянное совершенствование облачных технологий, таких как ASR и NLU, в основном это были “пограничные” проекты, которые снизили барьеры для распространения голосовых HMI. На переднем крае новое поколение встроенных движков преобразования речи в намерения полностью работают на самом устройстве, хотя и с ограниченным словарным запасом и набором практических намерений.

Ускорение обработки звука

Инженеры по разработке аудио традиционно добавляли автономный DSP на плату в качестве звукового сопроцессора, главным образом потому, что микроконтроллеры не обладали требуемой мощностью. Теперь встроенные процессоры используют усовершенствования набора команд, такие как Neon от Arm для Cortex-A и Helium для Cortex-M, для поддержки операций с плавающей запятой и SIMD, необходимых для эффективной обработки звука.

Это обеспечивает вычислительную мощность, необходимую для интеграции голосового управления в дизайн. Более того, в отличие от DSP с частотой 200 МГц, потребляющего 7000 мкВт / МГц, оптимизированный по мощности микроконтроллер с возможностями обработки звука может работать со скоростью около 20 мкВт / МГц.

Рисунок 2. Audio Weaver (буквально Звуковой Ткач,), графическая среда проектирования, оптимизированная для встроенного аудио программного обеспечения, предлагает программные компоненты для улучшения обработки звука в чипах, обслуживающих аудио вещей. Источник: DSP Concept.

Появление микрофонных решеток

Массив из нескольких микрофонов вместо одного микрофона выигрывает от большего количества вычислительных циклов для звукового дизайна. Однако проектирование массива, состоящего из двух-семи микрофонов, требует специальных знаний в области акустики, электротехники и механики. Инженеры-проектировщики должны выбрать подходящие микрофоны, определить оптимальное количество и геометрию массива, а также убедиться, что они правильно установлены и закреплены. Кроме того, инженеры должны спроектировать общее акустическое шасси и шасси продукта без механической связи между микрофонами и динамиками.

Программный AFE (Аудио фронт-энд)

Еще одним препятствием на пути широкого внедрения голосовых пользовательских интерфейсов стала низкая производительность распознавания речи, и именно здесь в игру вступают дизайнерские инновации в области аудио интерфейса (AFE). AFE — функциональный блок, расположенный между микрофонами устройства и остальной частью системы обработки голоса, — берет необработанный звук с микрофонов и пытается создать единый выходной аудиопоток из голосовых команд пользователя.

Здесь аппаратные AFE с фиксированной функцией трудно интегрировать в небольшие форм-факторы, и их производительность в основном не впечатляет. Но теперь доступность программных AFE, таких как TalkTo, позволяет машинам соответствовать способности человека понимать речь в шумной среде.

Рисунок 3. В систему на кристалле (SoC) от Qualcomm встроен TalkTo для поддержки дизайна, обеспечивающего постоянное прослушивание.

Источник: Qualcomm.

В TalkTo многоканальный акустический эхоподавитель (AEC) отменяет “известные” звуки, издаваемые собственными динамиками устройства. Далее, технология адаптивного подавления помех (AIC) использует машинное обучение и передовые технологии обработки микрофонов для непрерывного отображения и характеристики окружающего звукового поля.

Автор: Маджид Ахмад, главный редактор EDN и Planet Analog, занимается разработкой электроники более двух десятилетий.