Как устроены voice AI агенты: ASR, LLM и TTS архитектура
Голосовой AI-агент строится вокруг трёх основных блоков: ASR (распознавание речи), LLM (языковая модель) и TTS (синтез речи). Вместе они образуют цепочку, которая позволяет системе слышать пользователя, понимать смысл запроса и отвечать голосом.
Общая схема
Работа голосового агента выглядит так: пользователь говорит → система распознаёт речь → интерпретирует запрос и решает, что ответить или какое действие выполнить → озвучивает ответ. Затем цикл повторяется.
Ключевое требование здесь — низкая задержка. Если паузы между репликами слишком длинные, разговор начинает восприниматься как неестественный. Поэтому современные voice AI-системы проектируются так, чтобы обрабатывать речь и генерировать ответ почти в реальном времени.
ASR: распознавание речи
ASR (Automatic Speech Recognition) преобразует голос в текст. В голосовых системах обычно используется потоковое распознавание: аудио обрабатывается по мере поступления, а текст появляется частями, ещё до того как пользователь закончил говорить.
Это важно для скорости ответа. Система может начать готовить следующую реплику ещё до завершения фразы.
Один из самых важных элементов ASR — endpointing, то есть определение момента, когда пользователь закончил говорить. Если система срабатывает слишком рано, она перебивает человека. Если слишком поздно — возникает лишняя пауза. Именно endpointing часто сильнее влияет на ощущение “живого” диалога, чем сама скорость модели.
На качество распознавания также влияют шум, акценты, качество связи и одновременная речь.
LLM: понимание и логика ответа
LLM (Large Language Model) в голосовом агенте отвечает не только за генерацию текста. Она определяет намерение пользователя, удерживает контекст разговора, решает, нужно ли уточнение, и при необходимости вызывает внешние инструменты.
Например, модель может:
проверить заказ в системе,
записать данные в CRM,
посмотреть свободные слоты в календаре,
найти ответ в базе знаний.
То есть LLM делает голосового агента не просто “говорящим интерфейсом”, а частью бизнес-процессов.
Современные системы генерируют ответ токен за токеном. Это позволяет передавать текст в TTS ещё до того, как ответ готов целиком, и уменьшать задержку до первого звука.
На скорость LLM влияют размер контекста, длина промпта и время ответа внешних интеграций.
TTS: синтез речи
TTS (Text-to-Speech) превращает текст в голос. Для voice AI особенно важно, чтобы TTS тоже работал в потоковом режиме и начинал воспроизведение как можно раньше.
Если аудио начинается только после генерации всего ответа, система кажется медленной. Поэтому хороший TTS должен быстро выдавать первый звук и при этом сохранять естественность речи.
На восприятие качества влияют:
интонация,
темп,
паузы,
произношение имён и терминов,
общее ощущение “естественного” голоса.
Даже если ответ логически правильный, слабый TTS может испортить всё впечатление от разговора.
Как это работает вместе
Типовой цикл выглядит так:
Аудио поступает в ASR.
ASR превращает речь в текст и определяет конец фразы.
Текст передаётся в LLM.
LLM формирует ответ и при необходимости обращается к внешним системам.
Текст ответа передаётся в TTS.
TTS озвучивает ответ и отправляет аудио обратно пользователю.
Телефония, веб-аудио, масштабирование и логирование — это внешняя инфраструктура, но ядро voice AI строится именно вокруг связки ASR → LLM → TTS.
Итог
Voice AI-агент — это не одна модель, а связка трёх компонентов: ASR переводит речь в текст, LLM понимает запрос и формирует ответ, TTS превращает его обратно в голос. Качество голосового интерфейса зависит не только от силы каждого блока, но и от того, насколько быстро и слаженно они работают вместе.
