Распознавание речи с аппаратным ускорением. Специализированный ASIC потребляет менее 8 мВт


    Технические характеристики специализированной микросхемы ASIC для распознавания речи

    Голосовые команды — самый естественный и удобный интерфейс для управления электроникой. Можно представить, что в будущем понимать команды хозяина будут практически все электронные приборы: от лампочек в квартире до холодильника, микроволновой печи и чайника на кухне. Соединённые в общую сеть Интернета вещей эти приборы будут не только понимать хозяина, но и согласовывать свои действия друг с другом.

    В последние годы технологии распознавания речи достигли высокого уровня и созрели для различных коммерческих приложений: управление автомобильным компьютером, здравоохранение (ведение документации в цифровом виде по распознаванию речи врачей) и применение в армии. Например, в итальянском учебно-тренировочном самолёте M-346 и в американском истребителе-бомбардировщике F-35 точность систем распознавания речи достигает 98%. Но чтобы выполнять распознавание речи на бытовых приборах и носимой электронике, нужно кардинально снизить энергопотребление этого интерфейса.

    Инженеры из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института (МТИ) уже начали подготовку к этой футуристичной картине, когда вся окружающая электроника начнёт понимать голос человека. В рамках совместного проекта Qmulus с компанией Quanta Computer исследователи из МТИ разработали прототип специализированной микросхемы (ASIC) для распознавания речи. Уникальная особенность этого чипа — сверхнизкое энергопотребление: всего от 0,2 мВт до 10 мВт, в зависимости от количества слов, которые нужно распознать. Это делает возможным использование такой электроники буквально в любых устройствах, даже с питанием от человеческого тела.

    Нормальный метаболизм в организме взрослого мужчины производит примерно 80 Вт тепла, а тренированный велосипедист выдаёт до 400 Вт механической энергии. Конечно, такую мощь невозможно задействовать для питания электроники в полной мере, но ведь много не нужно. С человеческого тела в пассивном режиме легко снимается несколько ватт. Например, маленький браслет длиной 10 см на запястье генерирует в постоянном режиме около 40 мВт за счёт разницы температуры человеческого тела (примерно 37°С) и окружающего воздуха (20°С).



    Если надеть не браслет, а целый терможакет или орсет шириной 50-100 см, то он снимет с тела около 2 Вт. А ведь можно ещё преобразовать кинетическую энергию движения и расщеплять сахар из крови. Этого достаточно, чтобы питать нательную электронику, одежду и самые простые гаджеты.

    Кроме человеческого тела маломощные электронные устройства могут добывать энергию, например, из фонового радиоизлучения (СВЧ, радио, WiFi и др.), от вибраций окон и пола и т.д.

    Обычный средний смартфон вряд ли может работать на энергии, собранной с человеческого тела или из эфира. По расчёту разработчиков, программа распознавания речи на смартфоне на обычном мобильном «железе» будет тянуть около 1 Вт. Это очень много. Использование специализированной микросхемы МТИ и Quanta Computer в реальных условиях означает экономию энергии 90-99%. Самое главное, что такое маломощное устройство кардинально расширяет сферу применения распознавания речи. Теперь его можно внедрять не только в смартфоны или дорогостоящие электронные приборы, но в самые банальные окружающие предметы, даже в зеркало в ванной.

    Если собирать энергию из окружающей среды, то такому прибору вообще никогда не потребуется замена батарей. Если всё-таки снабжать его элементом питания для надёжности, то одного заряда хватит на месяцы или годы.

    Совместный проект Qmulus в МТИ и Quanta Computer начали ещё в 2005 году, тогда он назывался T-Party. Разработчики предполагают, что с распространением Интернета вещей компьютерные чипы будут внедрять в разные объекты, даже в домашних животных и крупный рогатый скот — для учёта поголовья и контроля за состоянием. Микрочипы осуществляют постоянный сбор информации и отправляют её на центральный сервер в реальном режиме времени.

    Возможно, чипы с распознаванием речи можно страивать в ошейники домашних животных — например, голосовая команда может подавать слабый электроимпульс в ошейник, стимулируя домашнего питомца выполнить то или иное действие. Впрочем, домашние животные и без микрочипа очень хорошо понимают голосовые команды хозяина, так что такое изобретение больше пригодится в других областях.

    «Голосовые команды станут естественным интерфейсом для носимых и умных устройств, — говорит Анантха Чандракасан (Anantha Chandrakasan), профессор электротехники МТИ, чья группа разработала новый микрочип. — Миниатюризация таких устройств потребует иного интерфейса, кроме клавиатуры. Критически важно встроить функциональность распознавания речи на локальном уровне, снизив энергопотребление системы по сравнению с выполнением этой операции в облаке».

    Спроектированный ASIC показывает точность распознавания примерно такую же, как коммерческое программное обеспечение Kaldi со словарём в 145 тыс. слов, а на тактовой частоте 80 МГц производительность микросхемы (скорость поиска слов в словарной решётке) примерно соответствует производительности компьютера с процессором Xeon и тактовой частотой 3,7 ГГц.



    Качество распознавания слитной речи (WER) и энергопотребление ASIC показаны в таблице.
    Задача Словарь Частота Обмен с памятью WER Энергопотребление
    Цифры 11 3 МГц 0,11 МБ/с 1,65% 172 мкВт
    Погода 2k 23 МГц 10,1 МБ/с 4,38% 4,70 мВт
    Дневник питания 7k 46 МГц 9,02 МБ/с 8,57% 4,67 мВт
    Новости (1) 5k 15 МГц 4,84 МБ/с 3,12% 1,78 мВт
    Новости (2) 145k 40 МГц 15,0 МБ/с 8,78% 7,78 мВт
    Научная статья "A Scalable Speech Recognizer with Deep-Neural-Network Acoustic Models and Voice-Activated Power Gating" с описанием микрочипа представлена на прошлой неделе на конференции International Solid-State Circuits Conference (презентация, pdf).

    Комментарии 7

    • НЛО прилетело и опубликовало эту надпись здесь
        0
        Что значит WER? Процент ошибок?
          +2
          Качество распознавания слитной речи (Word Error Rate, WER)
          http://www.math.spbu.ru/ru/mmeh/AspDok/pub/2016/medennikov.pdf
      • НЛО прилетело и опубликовало эту надпись здесь
          0
          Для псо и котэ — понятно, побрил, приклеил электроды и вуаля. Но для человека такое не покатит, надо создать в ухах звуковое давление, а это энергия на порядки больше.
          –1
          Не ну распознает то команду от тепла тела, а вот исполнительная часть от чего питаться будет?
          Да хотя бы передать на внешнее исполнительное — уже нужна побольше моща…

          Но чип безусловно интересный — его в канал речевого обмена телефона/рации засунуть: уже сжатие будет не слабым (на другой стороне синтезатор можно персонализировать под вызывающего).

          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

          Самое читаемое