Роман@codementor
Технический директор
Информация
- В рейтинге
- Не участвует
- Откуда
- Москва, Москва и Московская обл., Россия
- Дата рождения
- Зарегистрирован
- Активность
Специализация
Бэкенд разработчик, Фронтенд разработчик
Ведущий
От 1 000 000 ₽
Технический директор
Если бы речь шла о коротких и формализованных фразах регулярка справилась бы.
Но в звонках нет чёткой структуры: люди перебивают друг друга, меняют тему на середине,
а одно и то же слово может значить и согласие, и отказ, и просто вежливую отговорку.
Подобрать универсальные правила под все такие кейсы нереально.
Маленькая LLM, в отличие от регулярки, понимает последовательность и контекст,
поэтому сохраняет смысловые опорные точки кто что сказал, зачем и чем разговор закончился.
Да, компрессор тоже LLM, только маленькая.
Для основной модели использовали 7 миллиардов параметров , она оценивает критерии вроде “вежливость”, “продажа”, “возражения”.
Компрессор же мини версия Qwen 1.5B, обученная исключительно резюмировать диалоги и выкидывать слова паразиты типа угу, ммм и прочий вербальный мусор.
Экономия получается за счёт архитектуры. Мы обрабатываем звонок первым, сжимая транскрипт примерно на 60%, а дальше в основную модель летит уже очищенный текст.
Маленькая LLM стоит копейки, а большая тратит меньше токенов и GPU-времени.
Благодарим за ваш комментарий. Даже если бы мы попытались бесконечно увеличить возможности VPS, в конечном итоге мы все равно столкнулись бы с ограничениями ресурсов. Однако цель перехода не только в масштабировании, но и в улучшении управляемости, поддержке высокой доступности и автоматизации CI/CD процессов.