Комментарии 9
А в итоге же просто балансируются api request?
Балансируется event loop с очередью к api, vllm балансируется по аналогии, просто ip не хост машины а в локалке пк с видеокартами
https://github.com/vllm-project/vllm
Используйте rayserve. Это opensource. Он как раз для этого и создан, чтобы балансировать нагрузку на gpu между машинами . Он сам берет на себя роль балансировщика, где вы можете настроить как распределение ресурсов на вашу модель (если запущены ещё другие), мониторить нагрузку, автоматически расширять нагрузку через создание дополнительных машин (autoscaling).
На эту тему рекомендую книгу по ray serve. Ничего сложного там нет
Проблема в том, что это книга... ПО на фреймворках до 2019 года спокойно пишет Grok без нужны изменений кода программистом в 99% случаев. А после релиза ChatGPT опенсорс умер, как минимум с точки зрения примеров кода в документации, и для того же Langchain код генерируется отвратительно
Комменты за вас похоже тоже сетка пишет =\
Я привел книгу как удобный пример. Не умер opensource. В США rayserve это повсеместное использование, его автоматом можно развернуть на серверах Амазон.
Chstgpt вам не поможет с autoscaling в rayserve, пробовал . Доходил до этого сам, обучаясь. Все это важно, когда начинаешь считать затраты на gpu и нагрузку, тогда считаешь каждую копейку.
Просмотрите rayserve, там не только разворачивание , мониторинг, логированание, автоматическое распределение ресурсов, создание связки между разными машинами , внешний api и многое другое. Как развернуть обучение моделей, распределить автоматически нагрузку порт обучении и так далее.
Какой смысл изобретать колесо, которое будет изначально хуже? И про книгу вы зря, она очень полезная. Я использую и доки и книгу, когда не за компом.
Чтобы был work-life balance бизнес должен масштабироваться. Книги нужно читать, наёмные сотрудники не будут это делать.
P.S. Прочитайте техническую документацию, там не много https://github.com/tripolskypetr/agent-swarm-kit
Есть ещё кое что, специалист Langchain это абсурд, так задача ИИ убить профессию программиста...

Балансировка нагрузки LLM через Nginx