Технические характеристики специализированной микросхемы ASIC для распознавания речи
Голосовые команды — самый естественный и удобный интерфейс для управления электроникой. Можно представить, что в будущем понимать команды хозяина будут практически все электронные приборы: от лампочек в квартире до холодильника, микроволновой печи и чайника на кухне. Соединённые в общую сеть Интернета вещей эти приборы будут не только понимать хозяина, но и согласовывать свои действия друг с другом.
В последние годы технологии распознавания речи достигли высокого уровня и созрели для различных коммерческих приложений: управление автомобильным компьютером, здравоохранение (ведение документации в цифровом виде по распознаванию речи врачей) и применение в армии. Например, в итальянском учебно-тренировочном самолёте M-346 и в американском истребителе-бомбардировщике F-35 точность систем распознавания речи достигает 98%. Но чтобы выполнять распознавание речи на бытовых приборах и носимой электронике, нужно кардинально снизить энергопотребление этого интерфейса.
Инженеры из Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института (МТИ) уже начали подготовку к этой футуристичной картине, когда вся окружающая электроника начнёт понимать голос человека. В рамках совместного проекта Qmulus с компанией Quanta Computer исследователи из МТИ разработали прототип специализированной микросхемы (ASIC) для распознавания речи. Уникальная особенность этого чипа — сверхнизкое энергопотребление: всего от 0,2 мВт до 10 мВт, в зависимости от количества слов, которые нужно распознать. Это делает возможным использование такой электроники буквально в любых устройствах, даже с питанием от человеческого тела.
Нормальный метаболизм в организме взрослого мужчины производит примерно 80 Вт тепла, а тренированный велосипедист выдаёт до 400 Вт механической энергии. Конечно, такую мощь невозможно задействовать для питания электроники в полной мере, но ведь много не нужно. С человеческого тела в пассивном режиме легко снимается несколько ватт. Например, маленький браслет длиной 10 см на запястье генерирует в постоянном режиме около 40 мВт за счёт разницы температуры человеческого тела (примерно 37°С) и окружающего воздуха (20°С).
Если надеть не браслет, а целый терможакет или орсет шириной 50-100 см, то он снимет с тела около 2 Вт. А ведь можно ещё преобразовать кинетическую энергию движения и расщеплять сахар из крови. Этого достаточно, чтобы питать нательную электронику, одежду и самые простые гаджеты.
Кроме человеческого тела маломощные электронные устройства могут добывать энергию, например, из фонового радиоизлучения (СВЧ, радио, WiFi и др.), от вибраций окон и пола и т.д.
Обычный средний смартфон вряд ли может работать на энергии, собранной с человеческого тела или из эфира. По расчёту разработчиков, программа распознавания речи на смартфоне на обычном мобильном «железе» будет тянуть около 1 Вт. Это очень много. Использование специализированной микросхемы МТИ и Quanta Computer в реальных условиях означает экономию энергии 90-99%. Самое главное, что такое маломощное устройство кардинально расширяет сферу применения распознавания речи. Теперь его можно внедрять не только в смартфоны или дорогостоящие электронные приборы, но в самые банальные окружающие предметы, даже в зеркало в ванной.
Если собирать энергию из окружающей среды, то такому прибору вообще никогда не потребуется замена батарей. Если всё-таки снабжать его элементом питания для надёжности, то одного заряда хватит на месяцы или годы.
Совместный проект Qmulus в МТИ и Quanta Computer начали ещё в 2005 году, тогда он назывался T-Party. Разработчики предполагают, что с распространением Интернета вещей компьютерные чипы будут внедрять в разные объекты, даже в домашних животных и крупный рогатый скот — для учёта поголовья и контроля за состоянием. Микрочипы осуществляют постоянный сбор информации и отправляют её на центральный сервер в реальном режиме времени.
Возможно, чипы с распознаванием речи можно страивать в ошейники домашних животных — например, голосовая команда может подавать слабый электроимпульс в ошейник, стимулируя домашнего питомца выполнить то или иное действие. Впрочем, домашние животные и без микрочипа очень хорошо понимают голосовые команды хозяина, так что такое изобретение больше пригодится в других областях.
«Голосовые команды станут естественным интерфейсом для носимых и умных устройств, — говорит Анантха Чандракасан (Anantha Chandrakasan), профессор электротехники МТИ, чья группа разработала новый микрочип. — Миниатюризация таких устройств потребует иного интерфейса, кроме клавиатуры. Критически важно встроить функциональность распознавания речи на локальном уровне, снизив энергопотребление системы по сравнению с выполнением этой операции в облаке».
Спроектированный ASIC показывает точность распознавания примерно такую же, как коммерческое программное обеспечение Kaldi со словарём в 145 тыс. слов, а на тактовой частоте 80 МГц производительность микросхемы (скорость поиска слов в словарной решётке) примерно соответствует производительности компьютера с процессором Xeon и тактовой частотой 3,7 ГГц.
Качество распознавания слитной речи (WER) и энергопотребление ASIC показаны в таблице.
Задача | Словарь | Частота | Обмен с памятью | WER | Энергопотребление |
---|---|---|---|---|---|
Цифры | 11 | 3 МГц | 0,11 МБ/с | 1,65% | 172 мкВт |
Погода | 2k | 23 МГц | 10,1 МБ/с | 4,38% | 4,70 мВт |
Дневник питания | 7k | 46 МГц | 9,02 МБ/с | 8,57% | 4,67 мВт |
Новости (1) | 5k | 15 МГц | 4,84 МБ/с | 3,12% | 1,78 мВт |
Новости (2) | 145k | 40 МГц | 15,0 МБ/с | 8,78% | 7,78 мВт |