Рано или поздно наступает момент, когда понимаете: без LLM, работающей только на вас, дальше жить нельзя. Публичные модели, даже в платных подписках, — это всегда риск. Сомнения в том, не сливает ли какой-нибудь OpenAI или Alibaba вашу переписку, никуда не деваются, а внезапные «извините, этот сервис недоступен в вашем регионе» или жесткая цензура окончательно все портят.

В этой статье попытаемся решить проблему - рассмотрим, как запустить DeepSeek на своем облачном сервере, сколько ей нужно памяти и какие конфиги прописать, чтобы все запустилось с первого раза.

Что такое DeepSeek

Релизы моделей DeepSeek c конца 2024. Источник.
Релизы моделей DeepSeek c конца 2024. Источник.

Начну с обязательной справки, без этого никак:

DeepSeek — это семейство больших языковых моделей (англ. Large Language Model, LLM), разработанных китайской компанией DeepSeek. Код и модели DeepSeek распространяются открыто под лицензиями, разрешающими как некоммерческое, так и коммерческое использование. 

Открытость моделей и исходного кода предоставляет пользователям возможность выбора между конфиденциальностью и удобством:

  • Онлайн-версия. Доступна по адресу chat.deepseek.com. Это основная и самая большая модель, требующая высокой вычислительной мощности. Очень удобна для конечного пользователя, потому что ответ генерирует быстро и не требует настройки. Однако данные из чата в обезличенном виде могут быть использованы для обучения следующих моделей. Это неприемлемо для компаний, которые хотят сохранить свои корпоративные секреты.

  • Локальная версия. Требует настройки и выделенного сервера. Но все данные, передаваемые в языковую модель и сгенерированные ответы доступны только вам.

Для запуска локальной версии DeepSeek нужен мощный сервер. Но насколько мощный? Ответ на этот вопрос зависит от ваших ожиданий от большой языковой модели, а также терпения и бюджета. 

Каждая большая языковая модель имеет метрику «количество параметров». Если упрощать, то чем бо��ьше параметров — тем умнее модель и тем больше ресурсов нужно, чтобы она работала. 

Полная модель DeepSeek-V3.2 содержит 685 млрд параметров. Идеальный сервер для запуска такой модели состоит из 16 связанных между собой видеокарт NVIDIA A100 по 80 ГБ VRAM каждая, а также более 768 ГБ оперативной памяти. Это очень дорогой сервер, который избыточен для домашнего использования.

Для домашнего использования предлагаются дистиллированные модели: более компактные модели, которые обучаются от большой модели. Так, для размышляющей DeekSeek R1 официально существуют дистиллированные модели от 1,5 до 70 млрд параметров. Для запуска модели на семь млрд параметров подходит видеокарта для современных игр, например, 30-ая серия RTX.

Дистиллированные модели могут запускаться на процессоре, а также на разных видеокартах и специальных ускорителях. Оригинальные модели DeepSeek адаптированы для видеокарт NVIDIA с поддержкой технологии CUDA, а с недавнего времени — и для ИИ-ускорителей (NPU) Huawei Ascend.

Для примера будем использовать сервер с видеокартой NVIDIA A5000 — серверным аналогом RTX 3080.

Арендуйте GPU за 1 рубль!

Выберите нужную конфигурацию в панели управления Selectel. *

Подробнее →

Заказываем сервер

Для запуска локального DeepSeek воспользуемся облачной платформой Selectel. Облачная платформа позволяет удобно масштабировать виртуальный сервер в случае, если нужно больше ресурсов.

Облачная платформа Selectel.
Облачная платформа Selectel.

Открываем панель управления, выбираем ПродуктыОблачные вычисления. Странице серверов нажимаем Создать сервер.

Даем имя серверу.
Даем имя серверу.

Даем говорящее имя серверу, выбираем регион «Москва» и пул «ru-7», потому что там большой выбор видеокарт, доступных в облачной платформе.

GPU-конфигурация.
GPU-конфигурация.

Затем выбираем GPU-конфигурацию и в фильтре по видеокартам выбираем желаемую видеокарту, в нашем случае — A5000. Благодаря автовыбору образа на виртуальную машину будет установлена Ubuntu с драйверами для видеокарты.

Автовыбор образа облегчает жизнь.
Автовыбор образа облегчает жизнь.

Автовыбор выберет образ с драйверами для видеокарты. Нас устраивает выбор. Добавляем SSH-ключ, выбираем настройки сети и дисков. Рекомендую использовать SSD для быстрой загрузки моделей в память. 

Создаем сервер и через пару минут он становится доступен. Проверяем подключение по SSH и наличие видеокарты.

$ ssh root@256.324.434.242
root@deepseek:~# nvidia-smi
Sat Mar 14 15:27:46 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.126.09             Driver Version: 580.126.09     CUDA Version: 13.0     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA RTX A5000               Off |   00000000:00:06.0 Off |                    0 |
| 30%   33C    P2             57W /  230W |       0MiB /  23028MiB |     19%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

Теперь у нас есть сервер, готовый для экспериментов. Осталось поставить большую языковую модель. Как это можно сделать? Есть несколько путей.

Установка DeepSeek

Если вы хотите поиграть с локальной языковой моделью, то вам стоит обратить внимание на решения, которые автоматически скачивают модели и предоставляют удобные веб-интерфейсы для взаимодействия. Если же вы хотите использовать большую языковую модель в своем проекте без лишних зависимостей, то придется выполнить на пару команд больше.

Вне зависимости от выбранного вами способа будет нелишним знать, что все опубликованные модели хранятся на сайте HuggingFace. Если вы хотите скачать модель и использовать ее в своем Python-коде, то, наверняка вы знаете про huggingface-hub и знаете, что делать. 

Если же вы в первый раз работаете с большими языковыми моделями, то лучше обратиться к инструменту, который сделает большинство работы за вас.

Harbor — это менеджер, который позволяет управлять моделями и сервисами, которые используют эти модели. Для работы Harbor нужны Docker и git. 

Устанавливаем git:

apt update
apt install git

Устанавливаем Docker.

# Устанавливаем
curl https://get.docker.com/ | sh

# Устанавливаем поддержку GPU в Docker
# Скачиваем ключ для репозитория
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg

# Добавляем репозиторий
echo deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://nvidia.github.io/libnvidia-container/stable/deb/$(ARCH) / > /etc/apt/sources.list.d/nvidia-container-toolkit.list

# Обновляем индекс и устанавливаем
apt update
apt install nvidia-container-toolkit

# Обязательно перезагружаем Docker
systemctl restart docker

Затем устанавливаем Harbor:

curl https://raw.githubusercontent.com/av/harbor/refs/heads/main/install.sh | bash

После установки перезайдите на сервер — это необходимо, чтобы команда harbor стала доступна.

Обратите внимание, что для лаконичности инструкции используются команды, которые скачивают неизвестный скрипт и выполняют его с правами суперпользователя. Это небезопасно, так как скрипт может быть изменен и содержать вредоносный контент.

Такой подход допустим для краткосрочных проектов на чистом сервере, однако в продуктовой среде рекомендуется устанавливать ПО вручную из доверенных источников.

Проверяем успешность установки:

root@deepseek:~# harbor doctor
16:32:35 [INFO] Running Harbor Doctor...
16:32:35 [INFO] ✔ Docker is installed
16:32:35 [INFO] ✔ Docker can be called without sudo
16:32:35 [INFO] ✔ Docker daemon is running
16:32:35 [INFO] ✔ Docker Compose (v2) is installed
16:32:36 [INFO] ✔ Docker Compose (v2) version is newer than 2.23.1
16:32:36 [INFO] ✔ Harbor home: /root/.harbor
16:32:36 [INFO] ✔ Default profile exists and is readable
16:32:36 [INFO] ✔ Current profile (.env) exists and is readable
16:32:36 [INFO] ✔ CLI is linked
16:32:36 [INFO] ✔ NVIDIA GPU is available
16:32:36 [INFO] ✔ NVIDIA Container Toolkit is installed
16:32:36 [WARN] ✘ ROCm in not installed. AMD GPU support may not work.
16:32:36 [INFO] Harbor Doctor checks completed successfully.

Докер присутствует, графический ускоритель определяется и доступен в контейнерах. Значит, можно продолжать.

Скачиваем думающую модель deepseek-r1 на восемь млрд параметров. Возможные значения количества параметров можно найти в репозитории ollama

harbor ollama pull deepseek-r1:8b

После завершения загрузки запускаем сервисы.

# harbor up ollama webui
19:08:03 [INFO] Starting services: ollama webui
[+] up 21/21
 ✔ Image ghcr.io/open-webui/open-webui:main Pulled                                                                                                                            88.6s
 ✔ Container harbor.webui                   Healthy                                                                                                                           41.3s
 ✔ Container harbor.ollama                  Healthy                                                                                                                           27.3s
 ✔ Container harbor.ollama-init             Healthy                                                                                                                           8.8s
19:10:15 [INFO]   ollama - http://localhost:33821
19:10:15 [INFO]   webui - http://localhost:33801

Обратите внимание на вывод webui — это адрес, по которому доступен веб-интерфейс в виде чата. Также доступен ollama-совместимы�� API для прямого взаимодействия с моделью.  Во имя безопасности оба порта доступны только на локальном интерфейсе. 

Есть два решения:

  • установить обратный прокси, подключить домен и настроить SSL;

  • прокинуть порты через SSH. 

Воспользуемся вторым вариантом, так как это быстрее и не дает доступа всему интернету к нашему серверу.

ssh -N -L 33801:127.0.0.1:33801 root@256.324.434.242
Регистрация.
Регистрация.

Теперь открываем в браузере http://localhost:33801 и видим веб-интерфейс, который предлагает зарегистрироваться. Данные сохраняются локально, так что можете использовать любые данные. 

Если вы планируете сделать веб-интерфейс доступным из интернета, то используйте надежный пароль!

После регистрации выбираем модель и можем с ней общаться. Так как DeekSeek-R1 — это размышляющая модель, то генерация ответа занимает некоторое время. Скорость ответа так же зависит от выбранного графического ускорителя. К счастью, облачная платформа позволяет легко изменить конфигурацию сервера.

Расширение

Если вам хочется ускорить получение ответов или, наоборот, сократить расходы, то это легко сделать.

Карточка сервера.
Карточка сервера.

Откройте карточку сервера и нажмите Изменить конфигурацию

Изменение конфигурации.

Выберите подходящую конфигурацию и нажмите Сохранить и перезагрузить. Как следует из текста кнопки — сервер будет перезагружен. После перезагрузки вы можете проверить новую видеокарту.

root@deepseek:~#  nvidia-smi
Sun Mar 15 18:15:02 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.126.09             Driver Version: 580.126.09     CUDA Version: 13.0     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H100 PCIe               Off |   00000000:00:06.0 Off |                    0 |
| N/A   72C    P0            344W /  350W |   51141MiB /  81559MiB |    100%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A          885252      C   /usr/bin/ollama                       51132MiB |
+-----------------------------------------------------------------------------------------+

В моих экспериментах я выяснил, что для модели 8B нужно 12 ГБ VRAM, 32B — 28 ГБ, а для 70B — 51 ГБ VRAM. Полная модель, увы, не под силу одной видеокарте. 

Заключение

Развернуть большую языковую модель — это несложный процесс. Главная проблема тут не в софте, а в железе. Если видеопамяти мало, то пытаться впихнуть невпихуемое нет смысла — получите один токен в минуту и кучу нервов. 

Для большинства задач по кодингу и текстам версии 8B или 14B хватает за глаза. Лучше взять модель полегче, зато она будет отвечать мгновенно, чем гнаться за топовыми параметрами на неподходящем железе. А для каких рабочих задач вы используете локальные модели? Делитесь своим мнением в комментах.