Комментарии 7
А вы информируете клиента о том, что модель деградирует или с его точки зрения это выглядит как лотерея?
Может быть, лучше использовать подход в стиле Kaggle - “Все TPU сейчас заняты, вы #4 в очереди, подождите”.
Вы забываете что клиент не всегда живой человек, это могут быть системы автоматического мониторинга, умного дома и т.п, вы бы предпочли получить сообщение от секюрити системы к себе в телеграм что в охраняемом периметре замечена активность вы 12 в очереди ожидайте, и через некоторое время - "на камерах рыжий код породы дворовой гонется за серой мышью на скорости 6км/ч, судя по движению крон деревьев наблюдается порывистый ветер", либо сразу - "на камере бегущий кот"?
Я понимаю, о чём вы говорите. Но кем бы я не был - человеком, агентом или системой автоматического управления, я точно не ожидаю, что в мой запрос будут добавлены “оглупляющие” инструкции, если, конечно, начальный трейд-офф не предусматривал такого компромисса.
Хотя бы пришивайте к ответу метаинформацию, индицирующую степень деградации, чтобы инициатор запроса мог анализировать полученные данные “с открытыми глазами”.
Деградировать качество сервиса в угоду доступности - это нехорошее решение с точки зрения User Experience.
Мой опыт:
Когда я получаю явно глупые ответы - тут же перестаю общаться с llm, а доверие к сервису сильно падает.
Была история с Claude Code в августе 2025 - Reddit вопил о внезапно глупевших моделях, посты "я свалил с клода" плодились каждый день, и даже появлялись проекты "измерь уровень глупости своей модели прежде чем кодить". Клод тогда признал проблему и (вроде) исправился.
Быть может мой опыт - исключение, и у вас есть метрики, которые показывают что долгосрочное удовлетворение пользователей (в случае поглупевшей модели) падает не так сильно, как в случае долгого ожидания ответа?
Так вас всё равно за задудосят, если модель всегда отвечает хоть и кратко.
Кстати а что будет если пользователь очень настойчиво попросит в своем промпте рассуждать глубоко, записывать все рассуждения итдж?
А почему в очереди не закидываете запросы и обрабатывать по мере разгрузки gpu, китайцы так делают постоянно, там ответы могут минуты идти.
Там ещё надо мониторинг и килять зависшие запросы.

Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token