Pull to refresh
5
0
Роман@codementor

Технический директор

Send message

Если бы речь шла о коротких и формализованных фразах регулярка справилась бы.

Но в звонках нет чёткой структуры: люди перебивают друг друга, меняют тему на середине,

а одно и то же слово может значить и согласие, и отказ, и просто вежливую отговорку.

Подобрать универсальные правила под все такие кейсы нереально.

Маленькая LLM, в отличие от регулярки, понимает последовательность и контекст,

поэтому сохраняет смысловые опорные точки кто что сказал, зачем и чем разговор закончился.

Да, компрессор тоже LLM, только маленькая.

Для основной модели использовали  7 миллиардов параметров , она оценивает критерии вроде “вежливость”, “продажа”, “возражения”.

Компрессор же мини версия Qwen 1.5B, обученная исключительно резюмировать диалоги и выкидывать  слова паразиты типа угу, ммм и прочий вербальный мусор.

Экономия получается за счёт архитектуры. Мы обрабатываем звонок первым, сжимая транскрипт примерно на 60%, а дальше в основную модель летит уже очищенный текст.

Маленькая LLM стоит копейки, а большая тратит меньше токенов и GPU-времени.

Благодарим за ваш комментарий. Даже если бы мы попытались бесконечно увеличить возможности VPS, в конечном итоге мы все равно столкнулись бы с ограничениями ресурсов. Однако цель перехода не только в масштабировании, но и в улучшении управляемости, поддержке высокой доступности и автоматизации CI/CD процессов.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity

Specialization

Бэкенд разработчик, Фронтенд разработчик
Ведущий
From 1,000,000 ₽