Comments 16
Заголовок конечно рукалицо)
Для запуска локального Qwen воспользуемся облачной платформой...
Ну, елы-палы, автор, давайте в терминах не путаться
prefix caching включить забыли
Сколько токенов в сек выдаёт на этой карте?
Я правильно понял что Selectel предлагает на А100 запускать древнюю MoE модель всего на 30B параметров и 3В активных, да еще и платить за это 317рублей в час? Серьезно? За цену в месяц работы в облаке можно собрать компьютер с 5080, который будет эту модель крутить с 50 токенами в секунду и она будет реально локальной.... На А100 спокойно развернется модель на 122B параметров с 10В активных, если использовать квантованную модель Q4_K_M и сжатие KV-кэша турбоквант и иметь вполне рабочие 50-80Ток/с
Заменяем аналитиков при бизнес-моделировании организаций, так вот большой бизнес конечно хочет локальную LLM (и точно не в облаке) поэтому решению конечно быть, спасибо за обзор. Вопрос в том, какую карту взять и нагрузки. Но когда нужна локальная - деваться некуда. Билл Гейтс на вопрос "какой лучше купить сервер" всегда отвечал - "на который к Вас хватает денег".
Вскоре инструкции будут выглядеть как-то так
Методичка? Скилл!
# Практическое руководство по установке Qwen с vLLM и Open WebUI
Это руководство описывает процесс развёртывания модели [Qwen3-30B-Instruct](https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507) на GPU-сервере с использованием [vLLM](https://docs.vllm.ai/) и [Open WebUI](https://openwebui.com/). На выходе вы получите:
- OpenAI-совместимый API;
- Защиту по токену;
- Веб-интерфейс для тестирования;
- Работу через SSH-туннель для безопасности.
## Требования
- GPU-сервер с NVIDIA A100 80GB (или аналогичной);
- Установленный `nvidia-driver`, `nvidia-smi` работает;
- Ubuntu 24.04 LTS;
- SSH-доступ;
- Python, Docker.
## 1. Подключение к серверу
```bash
ssh <user>@<server_ip>
```
Проверьте GPU:
```bash
nvidia-smi
```
Проверьте свободное место:
```bash
df -h
```
## 2. Настройка кэша Hugging Face
```bash
sudo mkdir -p /data/models
sudo chown $USER:$USER /data/models
export HF_HOME=/data/models/huggingface
export TRANSFORMERS_CACHE=/data/models/huggingface/transformers
```
Добавьте в `~/.bashrc` для сохранения переменных:
```bash
echo 'export HF_HOME=/data/models/huggingface' >> ~/.bashrc
echo 'export TRANSFORMERS_CACHE=/data/models/huggingface/transformers' >> ~/.bashrc
```
## 3. Установка Python и vLLM
```bash
sudo apt update
sudo apt install -y python3 python3-venv python3-pip build-essential python3-dev
python3 -m venv ~/venvs/vllm
source ~/venvs/vllm/bin/activate
pip install -U pip
pip install vllm
```
Проверка установки:
```bash
python -c "import vllm; print(vllm.__version__)"
```
## 4. Запуск Qwen через vLLM
Установите переменные:
```bash
export MODEL_ID="Qwen/Qwen3-30B-A3B-Instruct-2507"
export VLLM_API_KEY="your_secure_token_here"
```
Сохраните токен в файл:
```bash
printf "%s" "$VLLM_API_KEY" > ~/.vllm_api_key
chmod 600 ~/.vllm_api_key
```
Запустите сервер:
```bash
vllm serve "$MODEL_ID" \
--host 0.0.0.0 \
--port 8081 \
--dtype auto \
--api-key "$VLLM_API_KEY" \
--max-model-len 16384
```
> ⚠️ Первый запуск займёт время — модель скачивается в кэш.
## 5. Проверка API (в новой сессии)
Экспортируйте `VLLM_API_KEY`, затем:
### Проверка списка моделей
```bash
curl -s http://localhost:8081/v1/models \
-H "Authorization: Bearer ${VLLM_API_KEY}" | head
```
### Проверка генерации
```bash
curl -s http://localhost:8081/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${VLLM_API_KEY}" \
-d '{
"model": "Qwen/Qwen3-30B-A3B-Instruct-2507",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Ответь одной фразой: сервис vLLM работает"}
],
"temperature": 0.2
}' | head -c 1200
```
## 6. Настройка SSH-туннеля (с локальной машины)
```bash
ssh -L 8081:localhost:8081 -L 3000:localhost:3000 <user>@<server_ip>
```
Теперь API доступен локально: `http://localhost:8081/v1`.
## 7. Установка и запуск Open WebUI
На сервере:
```bash
sudo apt install -y docker.io
sudo systemctl enable --now docker
sudo usermod -aG docker $USER
newgrp docker
```
Запустите контейнер:
```bash
docker pull ghcr.io/open-webui/open-webui:main
docker run -d \
--name open-webui \
-p 3000:8080 \
-v open-webui:/app/backend/data \
--restart unless-stopped \
ghcr.io/open-webui/open-webui:main
```
Проверка:
```bash
docker ps
```
## 8. Настройка подключения в Open WebUI
Получите IP хоста для Docker:
```bash
ip -4 addr show docker0 | grep -oP '(?<=inet\s)\d+(\.\d+){3}'
```
В веб-интерфейсе (`http://localhost:3000`):
- **Base URL**: `http://<docker0_ip>:8081/v1` (обычно `http://172.17.0.1:8081/v1`)
- **API Key**: значение `VLLM_API_KEY`
## 9. Рекомендации по эксплуатации
- **Автозапуск**: Перенесите vLLM в `systemd` или Docker;
- **Безопасность**: Не публикуйте порты в интернет, используйте VPC/туннели;
- **Мониторинг**: Контролируйте `nvidia-smi` и логи vLLM;
- **Лимиты**: Добавьте rate limiting на уровне прокси (Nginx, Traefik);
- **Обновления**: Регулярно обновляйте vLLM и Open WebUI.
## Дальнейшие шаги
- Настройка RAG (Retrieval-Augmented Generation);
- Интеграция с внутренней документацией;
- Сборка промышленного пайплайна с эмбеддингами и ретривером.
---
> 📌 **Важно**: Это тестовый стенд. Для продакшена добавьте TLS, аутентификацию пользователей, логирование и алертинг.
напишите пожалуйста:
сколько токенов в секунду получится, и сколько это мне будет стоить (я не очень хоу лезть к вам разбирать ваш прайс лист), буквально упомянутый Qwen3-30B-Instruct.
присоединяюсь к вопросу.
Также интересует сравнение: стоимости генерации токенов на вашем решении vs стоимость токенов на туже модель, купленных у qwen. Придётся переплачивать за приватность? Или наоборот (ну а вдруг:)?
Инфа о скорости генерации - критичная, чтобы принять решение о покупке, без неё никак.
Я выше уже писал, что дешевле собрать комп на 5080 за месяц аренды их решения. При этом получая скорость работы на уровне облака Alibaba
Если речь о стоимости, то смотря с чем сравнивать. Если с конфиденциальностью - то окупится, если по деньгам - нет. Хороше железо мало того что бешенных денег стоит, так ещё и электричество жрёт как не в себя.
А LM Studio с этим не справится?
У вас железо работатет как-то очень тормознуто, возможно из-за виртуализации, может еще почему, точно разбираться за свой счет желания нет.
Пробовал запускать LLM модель от Qwen, на ваших RTX4090, на моем локальном хосте дает 20 ток/сек с тем же размером RAM и той же видеокартой.
На вашем Windows сервере получил скорость 5 tok/sec - что в 4раза меньше
потом взял Ubuntu c 4090 и получил те же 5 tok/sec - тоже в 4 раза меньше
Для запуска брал llama.cpp, для Win есть готовые бинарники с Cuda, под Ubuntu бинарник с Cuda собирал на вашем сервере.
Information
- Website
- slc.tl
- Registered
- Founded
- Employees
- 1,001–5,000 employees
- Location
- Россия
- Representative
- Александр Шилов

Практическое руководство по Qwen: установка, настройка vLLM и работа через API