Uladzislau_by24 апр в 04:19

Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token

Средний

3 мин

9.6K

Серверная оптимизация * Python * Искусственный интеллект

Кейс

Из песочницы

Комментарии 7

sepulkary 24 апр в 04:32

А вы информируете клиента о том, что модель деградирует или с его точки зрения это выглядит как лотерея?

Может быть, лучше использовать подход в стиле Kaggle - “Все TPU сейчас заняты, вы #4 в очереди, подождите”.

Uladzislau_by 24 апр в 15:04

Вы забываете что клиент не всегда живой человек, это могут быть системы автоматического мониторинга, умного дома и т.п, вы бы предпочли получить сообщение от секюрити системы к себе в телеграм что в охраняемом периметре замечена активность вы 12 в очереди ожидайте, и через некоторое время - "на камерах рыжий код породы дворовой гонется за серой мышью на скорости 6км/ч, судя по движению крон деревьев наблюдается порывистый ветер", либо сразу - "на камере бегущий кот"?

sepulkary 24 апр в 15:45

Я понимаю, о чём вы говорите. Но кем бы я не был - человеком, агентом или системой автоматического управления, я точно не ожидаю, что в мой запрос будут добавлены “оглупляющие” инструкции, если, конечно, начальный трейд-офф не предусматривал такого компромисса.

Хотя бы пришивайте к ответу метаинформацию, индицирующую степень деградации, чтобы инициатор запроса мог анализировать полученные данные “с открытыми глазами”.

neodavinchi 24 апр в 05:28

Деградировать качество сервиса в угоду доступности - это нехорошее решение с точки зрения User Experience.

Мой опыт:
Когда я получаю явно глупые ответы - тут же перестаю общаться с llm, а доверие к сервису сильно падает.

Была история с Claude Code в августе 2025 - Reddit вопил о внезапно глупевших моделях, посты "я свалил с клода" плодились каждый день, и даже появлялись проекты "измерь уровень глупости своей модели прежде чем кодить". Клод тогда признал проблему и (вроде) исправился.

Быть может мой опыт - исключение, и у вас есть метрики, которые показывают что долгосрочное удовлетворение пользователей (в случае поглупевшей модели) падает не так сильно, как в случае долгого ожидания ответа?

Uladzislau_by 24 апр в 15:10

поглупевшая, и дающая ту же информацию в более краткой лаконичной форме это все таки разные вещи. модель так же процесс тот же просто получает указание ёмко описывать суть с сохранением смысла

ToniDoni 29 апр в 02:39

Так вас всё равно за задудосят, если модель всегда отвечает хоть и кратко.

Кстати а что будет если пользователь очень настойчиво попросит в своем промпте рассуждать глубоко, записывать все рассуждения итдж?

headliner1985 29 апр в 20:01

А почему в очереди не закидываете запросы и обрабатывать по мере разгрузки gpu, китайцы так делают постоянно, там ответы могут минуты идти.

Там ещё надо мониторинг и килять зависшие запросы.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий