Обновить

ASR на CPU. Как выбрать бэкенд, настроить Triton и не потерять в точности

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели6K
Всего голосов 18: ↑17 и ↓1+24
Комментарии4

Комментарии 4

Интересно про агентов, что это такое и какой протокол используется для передачи аудио чанков.
Также по схеме не понятно почему через asr агента идет отправка в vad. Почему не через vad агента в asr агента ?

Спасибо за вопрос!

Во всей схеме взаимодействия используется gRPC как единый транспортный протокол. Все компоненты (API, VAD-агент, ASR-агент, TTS-агент, серверы инференса) общаются между собой исключительно через gRPC-стримы.

Агенты это специализированные gRPC-сервисы, каждый из которых инкапсулирует низкоуровневую работу с конкретным сервером и предоставляет наружу строго определённый RPC-интерфейс.

Теперь о схеме. На самом деле, в представленной архитектуре, VAD является опцией, а не обязательным предшественником ASR. Главная точка входа для аудиопотока, это ASR-агент. Он принимает аудио от клиента и сам решает, как строить дальнейший пайплайн. Если нужна сегментация речи, он вызывает VAD-агента как вспомогательный сервис, отправляя ему аудиочанки и получая обратно метки границ речи. Именно поэтому на схеме стрелка идёт от ASR-агента к VAD-агенту: ASR-агент выступает оркестратором, а VAD-агент подчинённым инструментом. Такой дизайн позволяет ASR-пайплайну гибко использовать или не использовать различные VAD модели в зависимости от сценария и требований к задержке.

Почему выбрали gRPC а не вебсокеты ?

я так понимаю Bidirectional Streaming под капотом

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
mts.ai
Дата регистрации
Дата основания
Численность
201–500 человек
Местоположение
Россия
Представитель
Дарья Газизова