DonnaG Jun 8 at 10:58

Как установить DeepSeek на ПК, чтобы пользоваться им без интернета

Easy

3 min

19K

Artificial IntelligenceMachine learning * Open source *

Tutorial

+14

Comments 30

foxb Jun 8 at 11:14

По моему опыту, модели Jan также хорошо подходят для локалного использования.

janvarev Jun 8 at 11:53

Замечу, есть еще модели Ollama! /s

DonnaG Jun 8 at 13:19

😄 Ollama тоже отличный вариант. Для многих даже удобнее LM Studio, если не пугает работа через терминал.

Razoon Jun 12 at 23:04

Ollama не требует работы через терминал, это такая же по сути обертка как и lmstudio. А вы видимо путаете ее с llama.cpp который по хорошему надо использовать всем и каждому, ибо ее качество и производительность заметно выше остальных.

DonnaG Jun 8 at 13:18

Согласен, Jan тоже хороший вариант

PoganiniHot Jun 8 at 11:56

а по системным требованиям для q4, например?

DonnaG Jun 8 at 13:19

Для Q4-моделей обычно хватает 8–16 ГБ ОЗУ. Например, версия на 7–8 млрд параметров комфортно работает уже от 8 ГБ, а с 16 ГБ будет заметно свободнее.

sergeym69 Jun 8 at 13:25

И кому нужен этот древний мусор сейчас, тем более что это не DeepSeek а дистилляция. Ставить надо последние модели: Qwen3.6-27B - лучшая сейчас для локального использования на одной карте с 24Gb VRAM, потом Gemma-4-31B похуже для кодинга, Qwen3.6-35B, Gemma-4-26B, Gemma-4-12B и все.

Выбираете что у вас потянет и ставите.

Qwen3.6-27B уровень в кодинге почти Sonnet4.5 / GPT5.2

Gemma-4-12B у думаю будет посильнее Haiky4.5

slabnoff Jun 8 at 15:06

Qwen3.6-35B очень неплохой вариант для кодинга оказался. Через cpu-moe можно развернуть на хилой видеокарте (правда время первого токена совсем грустное конечно, я в итоге купил второй gpu). А если достаточно vram начинает летать - у меня сейчас 80 т/с, в то время как 27b не сильно лучше по кодингу, но на моем железе кое как 30 т/с и в более чем в два раза больше время первого токена (0.5 и более 1 с соответственно). Если железо позволяет, то 27b конечно сейчас самое лулучшее.

У deepseek вообще как-то все грустно с tool calls. То есть для чатиков разве что годится

Alex_23_2 Jun 9 at 05:18

У Qwen3.6-35B -A3B всего 3B активных параметров, он очень неплохая, но не настолько умная как Qwen3.6-27B где все параметры активные.

Как убедится? Простой тест попросить сгенерить 3d анимацию в виде HTML файла

Промпт для ваншот генерации, то есть генерится по промпту, генерилось в UI встроенном в llama.cpp server. Интерфейс там как в LMStudio, но чуть по проще.

Промпт

# Task: Create an Interactive 3D Aquarium Scene

You are an expert frontend and 3D graphics developer.

Your task is to generate a COMPLETE working web page that renders 
an interactive 3D aquarium scene which the user can rotate and explore.

---

## Main Goal

Create a **3D scene of an aquarium with animated fish**.

The final result must:

- render in a browser
- be interactive
- allow camera rotation
- contain animated fish swimming inside the aquarium

---

## Technical Requirements

You may use ANY suitable technology, but prefer:

- Three.js (preferred)
- WebGL
- or another browser-native 3D solution

Do NOT use heavy frameworks unless necessary.

The result must be contained in **a single HTML file** with embedded JS and CSS.

---

## Scene Requirements

### Aquarium

- Transparent glass aquarium
- Rectangular or rounded tank
- Visible water volume
- Slight refraction or transparency effect
- Subtle lighting and reflections

### Fish

- Multiple fish (at least 5)
- Fish must:
  - swim continuously
  - change direction smoothly
  - rotate naturally while moving
  - stay inside aquarium bounds
- Movement must be procedural (not static animation)

### Environment

- Soft underwater lighting
- Slight blue tint
- Optional bubbles or particles

---

## Interaction

User must be able to:

- rotate camera (mouse drag)
- zoom in/out (scroll wheel)
- orbit around aquarium

Use orbit controls or equivalent.

---

## Animation

- Continuous animation loop
- Smooth FPS
- Fish movement must feel alive (randomized paths)

---

## Code Quality

- Clean readable code
- Comments explaining important parts
- No placeholders
- Fully runnable immediately after copy-paste

---

## Output Format

Return ONLY:

1. Complete HTML file
2. No explanations
3. No markdown commentary
4. No extra text

The result must work immediately when opened in a browser.

Это скриншоты, в реальности это анимация, рыбы плавают, пузырьки двигаются, трава шевелится.

Попробуйте сами сгенерить по промпту в Haiky или Sonnet или еще в чем.

slabnoff Jun 9 at 08:59

Пробовал подобное, абсолютно с вами согласен, что на сложных задачах 27b может быть сильно адекватнее. Но по опыту решать задачи анализа и программирования на Си и c# и питоне уже получается сопоставимо. То есть до определенного уровня сложности moe модель получается эффективнее из-за значительного прироста скорости.

У меня сейчас, к сожалению, слишком хилое железо для 27b - 5060ti 16 gb и tesla t10 16gb (по сути 2080ti поджатая по потреблению). Вот минуту назад сделанный замер скорости: 1.37 с ttft и 30.4 т/с для 27b, 0.54 с ttft и 81 т/с для 35b. Так что приходится идти на компромисс и сидеть пока, до апгрейда, на 35b, запуская 27b только при острой необходимости.

Anton1906 Jun 9 at 11:34

30 т/с вполне хорошая скорость. Некоторым людям даже 10 т/с хватает для задач программирования.

slabnoff Jun 9 at 12:45

10 т/с это боль. Как правило такие скорости сопровождаются и высоким ttft. В итоге обойти проект и найти уязвимости - можно два раза кофе попить и три раза покурить.
Не так давно все научились через cpu-moe запускать Qwen3.6-35b. И я вместе с ними. Добился 60 т/с, но ttft порядка 5 (иногда 10!!!) секунд - обход проекта все также боль. Добавил второй gpu - получил небольшой прирост до 81 т/с и НА ПОРЯДОК снизил ttft - 0.53 с. Вот реально стало комфортно пользоваться.

Еще один ну очень интересный момент. Оказывается 35b MOE модель для некоторых задач имеет преимущество (есть предположение, что дополнительно дообучена; я в целом сам удивился, когда узнал):
Terminal-Bench 2.0 Агентное программирование в терминале 41.6% и 51.5%
QwenWebBench Генерация фронтенд-кода (UI/UX) 1068 (Elo) 1397 (Elo)

Anton1906 Jun 11 at 09:30

Если цель - получить ответ как можно быстрее, то 10 т/с может быть недостаточно, но если нужно просто решить задачу значительно быстрее, чем это было бы вручную, то здесь уже всё не так однозначно, особенно если нужно локально запускать большие модели, что относительно дешево можно сделать только на серверном процессоре с большим количеством ОЗУ

slabnoff Jun 13 at 08:29

Я с этим не спорю. Но интересно было бы конкретные примеры таких задач.

У меня задачи основные сейчас - opencode и работа с проектами на си/с#. Больше даже саппорт, а не что-то новое писать. То есть часто много итераций. И время итерации принципиально важно. Соответственно 35b moe модель, работающая в 2.5 раза быстрее соответственно и повышает мою продуктивность. Тем более на конкретно моих задачах разницы в результате нет (по тестам вообще должно быть небольшое преимущество у 35b).

almatt Jun 17 at 05:04

Добрый день, а какие у вас GPU сейчас и какие CPU и RAM?

sopranox Jun 8 at 14:21

У Openai есть открытые модели gpt-oss 20b и 120b.

slabnoff Jun 9 at 13:04

И по опыту gpt-oss 20b, субъективно конечно - спецтесты не гонял, генерит лучше, чем аналогичные по размеру варианты deepseek. Еще и куда меньше артефачит (английский лишь изредка проскакивает, а у deepseek достаточно часто иероглифы сыпятся)

vchernik Jun 8 at 14:46

Втрой раз пробую. Выдаёт: Error loading model.

🥲 Failed to load the model Error loading model. (Exit code: 18446744072635812000). Unknown error. Try a different model and/or config.

DonnaG Jun 9 at 07:46

Судя по ошибке, проблема не в DeepSeek как таковом, а в том, что модель не смогла загрузиться в память. Чаще всего причина — нехватка ОЗУ или видеопамяти, поврежденный файл модели либо слишком агрессивные настройки.

Попробуйте:

Скачать другую версию модели (например, 7B или 8B вместо 14B/32B).\
Полностью удалить и заново скачать модель.
Перезапустить LM Studio.
Отключить GPU Offload в настройках модели и попробовать запустить на CPU.
Посмотреть вкладку Logs — там обычно есть более подробная причина ошибки.

Напишите характеристики ПК (ОЗУ, процессор, видеокарта) и какую именно модель DeepSeek пытаетесь запустить — тогда будет проще понять, в чем проблема.

vchernik Jun 10 at 13:31

Спасибо за совет, но я не сомневаюсь, что проблема в железе. Я собирал ПК лет пять назад из компонент хоть и хороших, но уже устаревших.

Тип ЦП DualCore AMD Athlon 200GE, 3200 MHz (32 x 100)
Системная плата ASRock A320M-HDV R3.0
память Kingston Fury KF3600C17D4/8GX 2х8 Гб
видеоадаптер NVIDIA GeForce GT 710
размер видеопамяти 2048 Мб
SSD KINGSTON SNVS250G

Но хочется личный DS. Обновить ПК уже вряд ли получится. Надо копить пенсию на новый.;-))

Спасибо!

vl12 Jun 8 at 15:49

Главное не сказали в этом очерке для новичков. - Это размер чего и каковы сист. требования? Размер скачиваемого пакета? Выше пишут что это ОЗУ, ещё ниже про VRAM... Сколько надо ОЗУ, VRAM, места, CPU?

DonnaG Jun 9 at 07:47

Спасибо, добавил в текст.

sanchesfree Jun 8 at 18:51

Попробуйте MTP модели — multi token predictions, в 2-3 раза быстрее скорость генерации ответа. А для мака есть MTP+MLX = MTPLX :D ищите прям в названиях моделей такую строчку.

supercat1337 Jun 8 at 21:12

На сколько по ощущениям хуже локальный Deepseek от того, что в онлайне? Интересует работа с чатом.

Vitalis83 Jun 9 at 13:54

Просто поговорить, разницы не заметил особо. Опять же все разговоры с небольшим контекстом.

supercat1337 Jun 9 at 19:23

Ну, по-хорошему, объем контекста нужно держать на контроле.

Yuri_BY Jun 8 at 21:26

Без GPU с 12GB VRAM - это только посмотреть. Что-то толковое от 7/8b моделей можно ожидать начиная с Q5_K_M. Очень хороши оказались gemma-4-12B-it-Q5_K_M и ibm-granite_granite-4.1-8b-Q6_K_L при контексте 32768. На RTX-3060/12GB они выдают около 30 t/s.

Yuri_BY Jun 8 at 21:32

дополнение: и "дружат" c MCP Filesystem

kiryanton Jun 15 at 06:09

Deepseek это 700B. Попробуй запусти локально. Удачи.