Для основной модели использовали 7 миллиардов параметров , она оценивает критерии вроде “вежливость”, “продажа”, “возражения”.
Компрессор же мини версия Qwen 1.5B, обученная исключительно резюмировать диалоги и выкидывать слова паразиты типа угу, ммм и прочий вербальный мусор.
Экономия получается за счёт архитектуры. Мы обрабатываем звонок первым, сжимая транскрипт примерно на 60%, а дальше в основную модель летит уже очищенный текст.
Маленькая LLM стоит копейки, а большая тратит меньше токенов и GPU-времени.
Благодарим за ваш комментарий. Даже если бы мы попытались бесконечно увеличить возможности VPS, в конечном итоге мы все равно столкнулись бы с ограничениями ресурсов. Однако цель перехода не только в масштабировании, но и в улучшении управляемости, поддержке высокой доступности и автоматизации CI/CD процессов.
Если бы речь шла о коротких и формализованных фразах регулярка справилась бы.
Но в звонках нет чёткой структуры: люди перебивают друг друга, меняют тему на середине,
а одно и то же слово может значить и согласие, и отказ, и просто вежливую отговорку.
Подобрать универсальные правила под все такие кейсы нереально.
Маленькая LLM, в отличие от регулярки, понимает последовательность и контекст,
поэтому сохраняет смысловые опорные точки кто что сказал, зачем и чем разговор закончился.
Да, компрессор тоже LLM, только маленькая.
Для основной модели использовали 7 миллиардов параметров , она оценивает критерии вроде “вежливость”, “продажа”, “возражения”.
Компрессор же мини версия Qwen 1.5B, обученная исключительно резюмировать диалоги и выкидывать слова паразиты типа угу, ммм и прочий вербальный мусор.
Экономия получается за счёт архитектуры. Мы обрабатываем звонок первым, сжимая транскрипт примерно на 60%, а дальше в основную модель летит уже очищенный текст.
Маленькая LLM стоит копейки, а большая тратит меньше токенов и GPU-времени.
Благодарим за ваш комментарий. Даже если бы мы попытались бесконечно увеличить возможности VPS, в конечном итоге мы все равно столкнулись бы с ограничениями ресурсов. Однако цель перехода не только в масштабировании, но и в улучшении управляемости, поддержке высокой доступности и автоматизации CI/CD процессов.