Комментарии 5
Спасибо за статью. Не совсем понял, на чем основан компрессор? Это тоже LLM? Если да, то на чем экономия?
Да, компрессор тоже LLM, только маленькая.
Для основной модели использовали 7 миллиардов параметров , она оценивает критерии вроде “вежливость”, “продажа”, “возражения”.
Компрессор же мини версия Qwen 1.5B, обученная исключительно резюмировать диалоги и выкидывать слова паразиты типа угу, ммм и прочий вербальный мусор.
Экономия получается за счёт архитектуры. Мы обрабатываем звонок первым, сжимая транскрипт примерно на 60%, а дальше в основную модель летит уже очищенный текст.
Маленькая LLM стоит копейки, а большая тратит меньше токенов и GPU-времени.
Если бы речь шла о коротких и формализованных фразах регулярка справилась бы.
Но в звонках нет чёткой структуры: люди перебивают друг друга, меняют тему на середине,
а одно и то же слово может значить и согласие, и отказ, и просто вежливую отговорку.
Подобрать универсальные правила под все такие кейсы нереально.
Маленькая LLM, в отличие от регулярки, понимает последовательность и контекст,
поэтому сохраняет смысловые опорные точки кто что сказал, зачем и чем разговор закончился.
Эдак мы докатимся до того, что оператору и не надо будет думать что сказать. Модель будет анализировать вопрос и сразу выдавать ответ, а он будет тупо его читать вслух да и все.
А потом прикрутят озвучку и читать не надо будет, а оператор переедет под мост.

Как мы сделали аналитику контакт-центра на LLM в 7 раз дешевле