Pull to refresh

Comments 5

Спасибо за статью. Не совсем понял, на чем основан компрессор? Это тоже LLM? Если да, то на чем экономия?

Да, компрессор тоже LLM, только маленькая.

Для основной модели использовали  7 миллиардов параметров , она оценивает критерии вроде “вежливость”, “продажа”, “возражения”.

Компрессор же мини версия Qwen 1.5B, обученная исключительно резюмировать диалоги и выкидывать  слова паразиты типа угу, ммм и прочий вербальный мусор.

Экономия получается за счёт архитектуры. Мы обрабатываем звонок первым, сжимая транскрипт примерно на 60%, а дальше в основную модель летит уже очищенный текст.

Маленькая LLM стоит копейки, а большая тратит меньше токенов и GPU-времени.

а для этого точно нужна llm? вроде как словарь-регулярка или простейший nlp подойдет

Если бы речь шла о коротких и формализованных фразах регулярка справилась бы.

Но в звонках нет чёткой структуры: люди перебивают друг друга, меняют тему на середине,

а одно и то же слово может значить и согласие, и отказ, и просто вежливую отговорку.

Подобрать универсальные правила под все такие кейсы нереально.

Маленькая LLM, в отличие от регулярки, понимает последовательность и контекст,

поэтому сохраняет смысловые опорные точки кто что сказал, зачем и чем разговор закончился.

Эдак мы докатимся до того, что оператору и не надо будет думать что сказать. Модель будет анализировать вопрос и сразу выдавать ответ, а он будет тупо его читать вслух да и все.

А потом прикрутят озвучку и читать не надо будет, а оператор переедет под мост.

Sign up to leave a comment.

Articles