Комментарии 4
Интересно про агентов, что это такое и какой протокол используется для передачи аудио чанков.
Также по схеме не понятно почему через asr агента идет отправка в vad. Почему не через vad агента в asr агента ?
Спасибо за вопрос!
Во всей схеме взаимодействия используется gRPC как единый транспортный протокол. Все компоненты (API, VAD-агент, ASR-агент, TTS-агент, серверы инференса) общаются между собой исключительно через gRPC-стримы.
Агенты это специализированные gRPC-сервисы, каждый из которых инкапсулирует низкоуровневую работу с конкретным сервером и предоставляет наружу строго определённый RPC-интерфейс.
Теперь о схеме. На самом деле, в представленной архитектуре, VAD является опцией, а не обязательным предшественником ASR. Главная точка входа для аудиопотока, это ASR-агент. Он принимает аудио от клиента и сам решает, как строить дальнейший пайплайн. Если нужна сегментация речи, он вызывает VAD-агента как вспомогательный сервис, отправляя ему аудиочанки и получая обратно метки границ речи. Именно поэтому на схеме стрелка идёт от ASR-агента к VAD-агенту: ASR-агент выступает оркестратором, а VAD-агент подчинённым инструментом. Такой дизайн позволяет ASR-пайплайну гибко использовать или не использовать различные VAD модели в зависимости от сценария и требований к задержке.
Информация
- Сайт
- mts.ai
- Дата регистрации
- Дата основания
- Численность
- 201–500 человек
- Местоположение
- Россия
- Представитель
- Дарья Газизова
ASR на CPU. Как выбрать бэкенд, настроить Triton и не потерять в точности