tripolskypetr 31 мар в 16:10

Балансировка нагрузки LLM через Nginx

Средний

6 мин

4.3K

TypeScript * JavaScript * Python * Искусственный интеллектМашинное обучение *

Туториал

Комментарии 9

Kotofeus 31 мар в 17:57

А в итоге же просто балансируются api request?

tripolskypetr 31 мар в 19:07

Балансируется event loop с очередью к api, vllm балансируется по аналогии, просто ip не хост машины а в локалке пк с видеокартами

https://github.com/vllm-project/vllm

proxy3d 31 мар в 19:28

Используйте rayserve. Это opensource. Он как раз для этого и создан, чтобы балансировать нагрузку на gpu между машинами . Он сам берет на себя роль балансировщика, где вы можете настроить как распределение ресурсов на вашу модель (если запущены ещё другие), мониторить нагрузку, автоматически расширять нагрузку через создание дополнительных машин (autoscaling).

На эту тему рекомендую книгу по ray serve. Ничего сложного там нет

https://ozon.ru/t/HOq1ZlK

tripolskypetr 31 мар в 19:41

Проблема в том, что это книга... ПО на фреймворках до 2019 года спокойно пишет Grok без нужны изменений кода программистом в 99% случаев. А после релиза ChatGPT опенсорс умер, как минимум с точки зрения примеров кода в документации, и для того же Langchain код генерируется отвратительно

Kotofeus 31 мар в 19:43

Комменты за вас похоже тоже сетка пишет =\

tripolskypetr 31 мар в 19:49

https://habr.com/ru/articles/893232/#comment_28073848

proxy3d 31 мар в 20:24

Я привел книгу как удобный пример. Не умер opensource. В США rayserve это повсеместное использование, его автоматом можно развернуть на серверах Амазон.

Chstgpt вам не поможет с autoscaling в rayserve, пробовал . Доходил до этого сам, обучаясь. Все это важно, когда начинаешь считать затраты на gpu и нагрузку, тогда считаешь каждую копейку.

Просмотрите rayserve, там не только разворачивание , мониторинг, логированание, автоматическое распределение ресурсов, создание связки между разными машинами , внешний api и многое другое. Как развернуть обучение моделей, распределить автоматически нагрузку порт обучении и так далее.

Какой смысл изобретать колесо, которое будет изначально хуже? И про книгу вы зря, она очень полезная. Я использую и доки и книгу, когда не за компом.

tripolskypetr 31 мар в 20:47

Чтобы был work-life balance бизнес должен масштабироваться. Книги нужно читать, наёмные сотрудники не будут это делать.

P.S. Прочитайте техническую документацию, там не много https://github.com/tripolskypetr/agent-swarm-kit

tripolskypetr 31 мар в 19:46

Есть ещё кое что, специалист Langchain это абсурд, так задача ИИ убить профессию программиста...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий