Обновить
4
Vladimir Nikulin@vs_nikulin

Tech Lead / AI Inference Engineer

9
Рейтинг
1
Подписчики
Отправить сообщение

Спасибо за вопрос!

Во всей схеме взаимодействия используется gRPC как единый транспортный протокол. Все компоненты (API, VAD-агент, ASR-агент, TTS-агент, серверы инференса) общаются между собой исключительно через gRPC-стримы.

Агенты это специализированные gRPC-сервисы, каждый из которых инкапсулирует низкоуровневую работу с конкретным сервером и предоставляет наружу строго определённый RPC-интерфейс.

Теперь о схеме. На самом деле, в представленной архитектуре, VAD является опцией, а не обязательным предшественником ASR. Главная точка входа для аудиопотока, это ASR-агент. Он принимает аудио от клиента и сам решает, как строить дальнейший пайплайн. Если нужна сегментация речи, он вызывает VAD-агента как вспомогательный сервис, отправляя ему аудиочанки и получая обратно метки границ речи. Именно поэтому на схеме стрелка идёт от ASR-агента к VAD-агенту: ASR-агент выступает оркестратором, а VAD-агент подчинённым инструментом. Такой дизайн позволяет ASR-пайплайну гибко использовать или не использовать различные VAD модели в зависимости от сценария и требований к задержке.

Информация

В рейтинге
732-й
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

ML разработчик, Tech Lead / Inference Engineer
Ведущий
Python
C++
Прикладная математика
Алгоритмы и структуры данных
Разработка программного обеспечения
Оптимизация кода
Управление разработкой