Pull to refresh

Comments 16

Для запуска локального Qwen воспользуемся облачной платформой...

Ну, елы-палы, автор, давайте в терминах не путаться

prefix caching включить забыли

Сколько токенов в сек выдаёт на этой карте?

Чуть быстрее локального ноута )

Но ноут дома, а продавать машину с GPU как-то надо!

Я правильно понял что Selectel предлагает на А100 запускать древнюю MoE модель всего на 30B параметров и 3В активных, да еще и платить за это 317рублей в час? Серьезно? За цену в месяц работы в облаке можно собрать компьютер с 5080, который будет эту модель крутить с 50 токенами в секунду и она будет реально локальной.... На А100 спокойно развернется модель на 122B параметров с 10В активных, если использовать квантованную модель Q4_K_M и сжатие KV-кэша турбоквант и иметь вполне рабочие 50-80Ток/с

Это бизнес по-русски!))) Купить A100 в Китае за 340к и продавать в России как сервис за 230к в месяц. Про V100 вообще молчу, на авито таких как грязи за 50К.

Заменяем аналитиков при бизнес-моделировании организаций, так вот большой бизнес конечно хочет локальную LLM (и точно не в облаке) поэтому решению конечно быть, спасибо за обзор. Вопрос в том, какую карту взять и нагрузки. Но когда нужна локальная - деваться некуда. Билл Гейтс на вопрос "какой лучше купить сервер" всегда отвечал - "на который к Вас хватает денег".

Билл вообще не дурак срезать там, где можно. Чего софт пилить, если можно просто машину помощнее?

Однако )

Вскоре инструкции будут выглядеть как-то так

Методичка? Скилл!
# Практическое руководство по установке Qwen с vLLM и Open WebUI

Это руководство описывает процесс развёртывания модели [Qwen3-30B-Instruct](https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507) на GPU-сервере с использованием [vLLM](https://docs.vllm.ai/) и [Open WebUI](https://openwebui.com/). На выходе вы получите:

- OpenAI-совместимый API;
- Защиту по токену;
- Веб-интерфейс для тестирования;
- Работу через SSH-туннель для безопасности.

## Требования

- GPU-сервер с NVIDIA A100 80GB (или аналогичной);
- Установленный `nvidia-driver`, `nvidia-smi` работает;
- Ubuntu 24.04 LTS;
- SSH-доступ;
- Python, Docker.

## 1. Подключение к серверу

```bash
ssh <user>@<server_ip>
```

Проверьте GPU:

```bash
nvidia-smi
```

Проверьте свободное место:

```bash
df -h
```

## 2. Настройка кэша Hugging Face

```bash
sudo mkdir -p /data/models
sudo chown $USER:$USER /data/models
export HF_HOME=/data/models/huggingface
export TRANSFORMERS_CACHE=/data/models/huggingface/transformers
```

Добавьте в `~/.bashrc` для сохранения переменных:

```bash
echo 'export HF_HOME=/data/models/huggingface' >> ~/.bashrc
echo 'export TRANSFORMERS_CACHE=/data/models/huggingface/transformers' >> ~/.bashrc
```

## 3. Установка Python и vLLM

```bash
sudo apt update
sudo apt install -y python3 python3-venv python3-pip build-essential python3-dev

python3 -m venv ~/venvs/vllm
source ~/venvs/vllm/bin/activate
pip install -U pip
pip install vllm
```

Проверка установки:

```bash
python -c "import vllm; print(vllm.__version__)"
```

## 4. Запуск Qwen через vLLM

Установите переменные:

```bash
export MODEL_ID="Qwen/Qwen3-30B-A3B-Instruct-2507"
export VLLM_API_KEY="your_secure_token_here"
```

Сохраните токен в файл:

```bash
printf "%s" "$VLLM_API_KEY" > ~/.vllm_api_key
chmod 600 ~/.vllm_api_key
```

Запустите сервер:

```bash
vllm serve "$MODEL_ID" \
  --host 0.0.0.0 \
  --port 8081 \
  --dtype auto \
  --api-key "$VLLM_API_KEY" \
  --max-model-len 16384
```

> ⚠️ Первый запуск займёт время — модель скачивается в кэш.

## 5. Проверка API (в новой сессии)

Экспортируйте `VLLM_API_KEY`, затем:

### Проверка списка моделей

```bash
curl -s http://localhost:8081/v1/models \
  -H "Authorization: Bearer ${VLLM_API_KEY}" | head
```

### Проверка генерации

```bash
curl -s http://localhost:8081/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${VLLM_API_KEY}" \
  -d '{
  "model": "Qwen/Qwen3-30B-A3B-Instruct-2507",
  "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Ответь одной фразой: сервис vLLM работает"}
  ],
  "temperature": 0.2
}' | head -c 1200
```

## 6. Настройка SSH-туннеля (с локальной машины)

```bash
ssh -L 8081:localhost:8081 -L 3000:localhost:3000 <user>@<server_ip>
```

Теперь API доступен локально: `http://localhost:8081/v1`.

## 7. Установка и запуск Open WebUI

На сервере:

```bash
sudo apt install -y docker.io
sudo systemctl enable --now docker
sudo usermod -aG docker $USER
newgrp docker
```

Запустите контейнер:

```bash
docker pull ghcr.io/open-webui/open-webui:main
docker run -d \
  --name open-webui \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --restart unless-stopped \
  ghcr.io/open-webui/open-webui:main
```

Проверка:

```bash
docker ps
```

## 8. Настройка подключения в Open WebUI

Получите IP хоста для Docker:

```bash
ip -4 addr show docker0 | grep -oP '(?<=inet\s)\d+(\.\d+){3}'
```

В веб-интерфейсе (`http://localhost:3000`):

- **Base URL**: `http://<docker0_ip>:8081/v1` (обычно `http://172.17.0.1:8081/v1`)
- **API Key**: значение `VLLM_API_KEY`

## 9. Рекомендации по эксплуатации

- **Автозапуск**: Перенесите vLLM в `systemd` или Docker;
- **Безопасность**: Не публикуйте порты в интернет, используйте VPC/туннели;
- **Мониторинг**: Контролируйте `nvidia-smi` и логи vLLM;
- **Лимиты**: Добавьте rate limiting на уровне прокси (Nginx, Traefik);
- **Обновления**: Регулярно обновляйте vLLM и Open WebUI.

## Дальнейшие шаги

- Настройка RAG (Retrieval-Augmented Generation);
- Интеграция с внутренней документацией;
- Сборка промышленного пайплайна с эмбеддингами и ретривером.

---

> 📌 **Важно**: Это тестовый стенд. Для продакшена добавьте TLS, аутентификацию пользователей, логирование и алертинг.

напишите пожалуйста:
сколько токенов в секунду получится, и сколько это мне будет стоить (я не очень хоу лезть к вам разбирать ваш прайс лист), буквально упомянутый Qwen3-30B-Instruct.

присоединяюсь к вопросу.

Также интересует сравнение: стоимости генерации токенов на вашем решении vs стоимость токенов на туже модель, купленных у qwen. Придётся переплачивать за приватность? Или наоборот (ну а вдруг:)?

Инфа о скорости генерации - критичная, чтобы принять решение о покупке, без неё никак.

Я выше уже писал, что дешевле собрать комп на 5080 за месяц аренды их решения. При этом получая скорость работы на уровне облака Alibaba

Если речь о стоимости, то смотря с чем сравнивать. Если с конфиденциальностью - то окупится, если по деньгам - нет. Хороше железо мало того что бешенных денег стоит, так ещё и электричество жрёт как не в себя.

А LM Studio с этим не справится?

У вас железо работатет как-то очень тормознуто, возможно из-за виртуализации, может еще почему, точно разбираться за свой счет желания нет.

Пробовал запускать LLM модель от Qwen, на ваших RTX4090, на моем локальном хосте дает 20 ток/сек с тем же размером RAM и той же видеокартой.

На вашем Windows сервере получил скорость 5 tok/sec - что в 4раза меньше

потом взял Ubuntu c 4090 и получил те же 5 tok/sec - тоже в 4 раза меньше

Для запуска брал llama.cpp, для Win есть готовые бинарники с Cuda, под Ubuntu бинарник с Cuda собирал на вашем сервере.

Sign up to leave a comment.

Information

Website
slc.tl
Registered
Founded
Employees
1,001–5,000 employees
Location
Россия
Representative
Александр Шилов