Comments / Profile of ydss / Habr

Nikita Prismakov@ydss

Инженер встраиваемых систем

Subscribers

Смогут ли микроконтроллеры с NPU заменить облако для распознавания речи?

Добрый день. Спасибо.
На данном этапе не планирую, однако после завершения всех частей постараюсь предоставить демонстрационную версию, которую можно будет запустить на отладочной плате.

Смогут ли микроконтроллеры с NPU заменить облако для распознавания речи?

ydss Apr 13 at 11:59

Ключевое отличие здесь в том, что это всё ещё довольно тяжёлые модели, пусть и ужатые, и они рассчитаны на смартфоны с нормальным SoC и достаточным объёмом памяти.

В моём случае речь идёт совсем о другом классе устройств, а именно о микроконтроллерах с жёсткими ограничениями по памяти, энергопотреблению и стоимости. Там даже задержка в одну секунду уже критична, не говоря уже о минуте.

Плюс есть важный момент: обработка идёт в реальном времени прямо на устройстве, без накопления данных и долгого ответа.

Смогут ли микроконтроллеры с NPU заменить облако для распознавания речи?

ydss Apr 13 at 11:34

Тут скорее не про лучше, чем HA, а просто немного про другой сценарий.

В Home Assistant это действительно уже можно сделать, но обычно для этого всё равно нужен отдельный сервер, мини-ПК или что-то сопоставимое, что постоянно включено и потребляет свои 5-20 ватт. А здесь идея в другом: чтобы распознавание работало прямо на самом устройстве, вообще без отдельного сервера - ни облачного, ни локального.

Плюс вопрос цены. Одно дело - держать под это отдельную машину, и совсем другое - когда сама функция живёт прямо в дешёвом железе. Если такие решения станут распространёнными, голос можно будет добавлять даже в недорогие устройства, где ставить Home Assistant-сервер просто не имеет особого смысла.

То есть это не замена HA, а скорее другой уровень: не один умный домовой сервер на всё, а много маленьких автономных устройств, каждое со своей локальной логикой.

Смогут ли микроконтроллеры с NPU заменить облако для распознавания речи?

ydss Apr 13 at 11:13

Спасибо
Модель обучалась с помощью CTC. Это как раз удобно для речи, потому что не нужно вручную размечать, какой фонеме соответствует каждый момент времени: на вход подаётся аудио, на выходе - целевая последовательность фонем, а CTC сама учит модель выравнивать одно с другим во времени. К сожалению, я не смогу объяснить это в комментариях, так как это довольно сложная тема.

Разная высота голоса, тембр и манера произношения учитываются не поиском по нескольким фиксированным линиям спектра, а всей нейросетью целиком - она анализирует спектральный образ во времени. То есть фонема у меня определяется не по отдельным «линиям», а по совокупности признаков на последовательности кадров.

На своём голосе я модель не обучал. Она обучалась на LibriSpeech, то есть на большом многоголосом датасете.

Смогут ли микроконтроллеры с NPU заменить облако для распознавания речи?

ydss Apr 12 at 12:31

Под "смартом" вы имеете в виду старый смартфон?

Смогут ли микроконтроллеры с NPU заменить облако для распознавания речи?

ydss Apr 12 at 11:52

Вы подменяет тему.
Статья не про то, отменят ли компании подписки, а про то, можно ли технически реализовать распознавание речи на микроконтроллере с NPU. Ответ: в ряде сценариев уже становится можно.

То, что облачные решения выгоднее части бизнеса, не означает, что автономные решения «не взлетят». У них просто другой рынок: приватные, офлайн и энергоэффективные устройства.

Смогут ли микроконтроллеры с NPU заменить облако для распознавания речи?

ydss Apr 12 at 08:42

Если вы про Kendryte K210, то сам производитель называет его SoC, и это логично: два 64-бит RISC-V ядра и KPU для CNN - это уже не “классический микроконтроллер”, а AI SoC с MCU подобным сценарием применения. STM32N6 тоже размывает границу, но он всё же построен на Cortex-M55, и сама ST позиционирует его как MCU со встроенным NPU.

Information

Specialization