Архитектура голосового AI-агента для бизнеса
Голосовой AI-агент для бизнеса — это не просто связка распознавания речи и озвученного ответа. Полноценная система объединяет каналы связи, ядро диалога, интеграции с внутренними сервисами, управление сессией и правила передачи разговора человеку. Именно эта связка определяет, сможет ли агент реально участвовать в бизнес-процессах, а не только отвечать на типовые вопросы.
Общая схема
На верхнем уровне находятся каналы, через которые пользователь взаимодействует с агентом: входящие и исходящие звонки, а также голосовой виджет на сайте. Ниже располагается голосовое ядро, состоящее из трёх компонентов: ASR, LLM и TTS. Ещё ниже — интеграции с CRM, календарями, заказами, базами знаний и другими системами. Отдельным слоем идёт оркестрация сессии: хранение контекста, управление сценарием и эскалация на оператора.
Такая архитектура позволяет использовать одно и то же ядро для разных каналов. Меняется только способ доставки аудио, а логика диалога и доступ к данным остаются общими.
Каналы
Во входящих звонках телефония принимает вызов и передаёт аудио в голосовое ядро. Агент определяет запрос, отвечает сам или передаёт разговор оператору вместе с контекстом.
Во исходящих звонках система сама инициирует вызов: напоминает о встрече, проводит опрос, подтверждает запись, квалифицирует лид. После разговора она может обновить CRM или запустить follow-up процессы.
На сайте пользователь говорит через браузер, а аудио идёт в ту же цепочку ASR → LLM → TTS. Разница здесь только в канале, а не в логике работы.
Голосовое ядро
Ядро voice AI строится вокруг трёх блоков:
ASR переводит речь в текст в реальном времени;
LLM понимает намерение, держит контекст и решает, что делать дальше;
TTS превращает ответ в голос.
Для бизнеса важно, что LLM не просто формирует текст, а может вызывать внешние инструменты. Например, проверить статус заказа, создать лид, записать клиента в календарь или найти ответ в базе знаний. Благодаря этому голосовой агент становится частью операционного контура компании.
Критичны и задержки: если распознавание, генерация ответа или синтез речи работают слишком медленно, диалог становится неестественным.
Интеграции
Без интеграций агент ограничен статичными ответами. С интеграциями он может выполнять полезные действия в реальных системах.
Типичные подключения:
CRM — создание и обновление контактов, лидов и сделок;
системы заказов — проверка статуса, сроков, доставки;
календарь — поиск свободных слотов, запись, перенос;
база знаний / RAG — ответы по продукту, тарифам, условиям;
автоматизации — запуск писем, тикетов, задач и других сценариев.
Обычно такие действия оформляются как инструменты, которые LLM вызывает по мере разговора. Чем богаче этот слой, тем больше обращений агент способен закрыть без участия оператора.
Сессия и эскалация
Каждый разговор — это отдельная сессия. В ней хранятся история реплик, извлечённые данные и текущее состояние сценария. Контекст нужен, чтобы агент не терял нить разговора и мог ссылаться на уже сказанное.
Не менее важна эскалация. В архитектуре должны быть заранее определены правила: когда разговор нужно передать человеку, как именно передать контекст и в какую очередь маршрутизировать клиента. Передача оператору — не ошибка системы, а нормальный элемент сценария для сложных или нестандартных кейсов.
Что даёт такая архитектура
Такая схема даёт бизнесу несколько преимуществ:
единая логика для телефона и сайта;
выполнение действий, а не только ответы;
сохранение контекста между этапами разговора;
предсказуемая передача сложных кейсов операторам;
возможность масштабировать сценарии без полной перестройки ядра.
Итог
Архитектура голосового AI-агента состоит из нескольких слоёв: каналы, голосовое ядро, интеграции, управление сессией и эскалация. Чем лучше связаны эти элементы, тем полезнее агент для бизнеса. На практике ценность такого решения определяется не только качеством речи, но и тем, насколько глубоко агент встроен в реальные процессы компании.