Комментарии / Профиль SmartAgent / Хабр

Разрабатываю AI-пайплайны для бизнеса: STT, NLP, L

Рейтинг

Подписчики

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Спасибо! RAG рассматривали на практике — собрали 12 000+ пар «контекст→ответ» из реальных разговоров операторов, сделали embedding search (sentence-transformers, 384-dim). Результат: поиск находит похожие по словам фразы, но не понимает контекст разговора. Например, «не работаю с агентами» → retrieval выдаёт «До свидания» (самый частый ответ), а нужно убеждать: «Комиссию платит клиент».

Корневая проблема — retrieval не знает, на каком шаге разговора мы находимся и какой следующий логический ход. LLM это понимает из коробки, видя всю историю диалога.

По стоимости: Groq (Llama-3.3-70B) ~$0.003 за звонок (10 реплик × 500 токенов), латентность 300-500мс. RAG потребовал бы vector DB + embedding model + логику ранжирования — и всё равно не дал бы нужного качества.

По поводу подачи аудио-эмбеддингов напрямую в мультимодальную модель — идея интересная, но пока реальные мультимодальные модели с audio input (Gemini, GPT-4o) имеют слишком высокую латентность для real-time телефонии (~2-5с). Связка Deepgram STT (200мс) + текстовый LLM (400мс) пока быстрее.

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

SmartAgent 8 апр в 07:30

Верно, Asterisk это IP-телефония. В статье речь про облачные АТС (Mango, UIS, Zadarma) и SIP-платформы. MixMonitor с раздельной записью каналов это решение для Asterisk-based систем. Для аппаратных АТС запись стерео зависит от конкретного вендора и его API.

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

SmartAgent 8 апр в 07:25

АТС действительно из коробки отдаёт моно — MixMonitor по умолчанию миксует оба направления в один файл. Но Asterisk умеет писать каналы раздельно, нужно только указать флаги r() и t():

MixMonitor(${fname}.wav,r(${fname}-in.wav)t(${fname}-out.wav),/usr/local/bin/stereo-encode.sh ${fname})

r() — входящий поток (клиент), t() — исходящий (оператор). Получаем два отдельных WAV.

Дальше post-process скриптом склеиваем в стерео через sox:

sox -M ${fname}-in.wav ${fname}-out.wav ${fname}-stereo.wav
lame -b 32 -m s ${fname}-stereo.wav ${fname}.mp3

На выходе: левый канал = клиент, правый = оператор. Диаризация бесплатно, pyannote не нужен