DonnaG8 июн в 10:58

Как установить DeepSeek на ПК, чтобы пользоваться им без интернета

Простой

3 мин

18K

Искусственный интеллектМашинное обучение * Open source *

Туториал

+14

Комментарии 30

foxb 8 июн в 11:14

По моему опыту, модели Jan также хорошо подходят для локалного использования.

janvarev 8 июн в 11:53

Замечу, есть еще модели Ollama! /s

DonnaG 8 июн в 13:19

😄 Ollama тоже отличный вариант. Для многих даже удобнее LM Studio, если не пугает работа через терминал.

Razoon 12 июн в 23:04

Ollama не требует работы через терминал, это такая же по сути обертка как и lmstudio. А вы видимо путаете ее с llama.cpp который по хорошему надо использовать всем и каждому, ибо ее качество и производительность заметно выше остальных.

DonnaG 8 июн в 13:18

Согласен, Jan тоже хороший вариант

PoganiniHot 8 июн в 11:56

а по системным требованиям для q4, например?

DonnaG 8 июн в 13:19

Для Q4-моделей обычно хватает 8–16 ГБ ОЗУ. Например, версия на 7–8 млрд параметров комфортно работает уже от 8 ГБ, а с 16 ГБ будет заметно свободнее.

sergeym69 8 июн в 13:25

И кому нужен этот древний мусор сейчас, тем более что это не DeepSeek а дистилляция. Ставить надо последние модели: Qwen3.6-27B - лучшая сейчас для локального использования на одной карте с 24Gb VRAM, потом Gemma-4-31B похуже для кодинга, Qwen3.6-35B, Gemma-4-26B, Gemma-4-12B и все.

Выбираете что у вас потянет и ставите.

Qwen3.6-27B уровень в кодинге почти Sonnet4.5 / GPT5.2

Gemma-4-12B у думаю будет посильнее Haiky4.5

slabnoff 8 июн в 15:06

Qwen3.6-35B очень неплохой вариант для кодинга оказался. Через cpu-moe можно развернуть на хилой видеокарте (правда время первого токена совсем грустное конечно, я в итоге купил второй gpu). А если достаточно vram начинает летать - у меня сейчас 80 т/с, в то время как 27b не сильно лучше по кодингу, но на моем железе кое как 30 т/с и в более чем в два раза больше время первого токена (0.5 и более 1 с соответственно). Если железо позволяет, то 27b конечно сейчас самое лулучшее.

У deepseek вообще как-то все грустно с tool calls. То есть для чатиков разве что годится

Alex_23_2 9 июн в 05:18

У Qwen3.6-35B -A3B всего 3B активных параметров, он очень неплохая, но не настолько умная как Qwen3.6-27B где все параметры активные.

Как убедится? Простой тест попросить сгенерить 3d анимацию в виде HTML файла

Промпт для ваншот генерации, то есть генерится по промпту, генерилось в UI встроенном в llama.cpp server. Интерфейс там как в LMStudio, но чуть по проще.

Промпт

# Task: Create an Interactive 3D Aquarium Scene

You are an expert frontend and 3D graphics developer.

Your task is to generate a COMPLETE working web page that renders 
an interactive 3D aquarium scene which the user can rotate and explore.

---

## Main Goal

Create a **3D scene of an aquarium with animated fish**.

The final result must:

- render in a browser
- be interactive
- allow camera rotation
- contain animated fish swimming inside the aquarium

---

## Technical Requirements

You may use ANY suitable technology, but prefer:

- Three.js (preferred)
- WebGL
- or another browser-native 3D solution

Do NOT use heavy frameworks unless necessary.

The result must be contained in **a single HTML file** with embedded JS and CSS.

---

## Scene Requirements

### Aquarium

- Transparent glass aquarium
- Rectangular or rounded tank
- Visible water volume
- Slight refraction or transparency effect
- Subtle lighting and reflections

### Fish

- Multiple fish (at least 5)
- Fish must:
  - swim continuously
  - change direction smoothly
  - rotate naturally while moving
  - stay inside aquarium bounds
- Movement must be procedural (not static animation)

### Environment

- Soft underwater lighting
- Slight blue tint
- Optional bubbles or particles

---

## Interaction

User must be able to:

- rotate camera (mouse drag)
- zoom in/out (scroll wheel)
- orbit around aquarium

Use orbit controls or equivalent.

---

## Animation

- Continuous animation loop
- Smooth FPS
- Fish movement must feel alive (randomized paths)

---

## Code Quality

- Clean readable code
- Comments explaining important parts
- No placeholders
- Fully runnable immediately after copy-paste

---

## Output Format

Return ONLY:

1. Complete HTML file
2. No explanations
3. No markdown commentary
4. No extra text

The result must work immediately when opened in a browser.

Это скриншоты, в реальности это анимация, рыбы плавают, пузырьки двигаются, трава шевелится.

Попробуйте сами сгенерить по промпту в Haiky или Sonnet или еще в чем.

slabnoff 9 июн в 08:59

Пробовал подобное, абсолютно с вами согласен, что на сложных задачах 27b может быть сильно адекватнее. Но по опыту решать задачи анализа и программирования на Си и c# и питоне уже получается сопоставимо. То есть до определенного уровня сложности moe модель получается эффективнее из-за значительного прироста скорости.

У меня сейчас, к сожалению, слишком хилое железо для 27b - 5060ti 16 gb и tesla t10 16gb (по сути 2080ti поджатая по потреблению). Вот минуту назад сделанный замер скорости: 1.37 с ttft и 30.4 т/с для 27b, 0.54 с ttft и 81 т/с для 35b. Так что приходится идти на компромисс и сидеть пока, до апгрейда, на 35b, запуская 27b только при острой необходимости.

Anton1906 9 июн в 11:34

30 т/с вполне хорошая скорость. Некоторым людям даже 10 т/с хватает для задач программирования.

slabnoff 9 июн в 12:45

10 т/с это боль. Как правило такие скорости сопровождаются и высоким ttft. В итоге обойти проект и найти уязвимости - можно два раза кофе попить и три раза покурить.
Не так давно все научились через cpu-moe запускать Qwen3.6-35b. И я вместе с ними. Добился 60 т/с, но ttft порядка 5 (иногда 10!!!) секунд - обход проекта все также боль. Добавил второй gpu - получил небольшой прирост до 81 т/с и НА ПОРЯДОК снизил ttft - 0.53 с. Вот реально стало комфортно пользоваться.

Еще один ну очень интересный момент. Оказывается 35b MOE модель для некоторых задач имеет преимущество (есть предположение, что дополнительно дообучена; я в целом сам удивился, когда узнал):
Terminal-Bench 2.0 Агентное программирование в терминале 41.6% и 51.5%
QwenWebBench Генерация фронтенд-кода (UI/UX) 1068 (Elo) 1397 (Elo)

Anton1906 11 июн в 09:30

Если цель - получить ответ как можно быстрее, то 10 т/с может быть недостаточно, но если нужно просто решить задачу значительно быстрее, чем это было бы вручную, то здесь уже всё не так однозначно, особенно если нужно локально запускать большие модели, что относительно дешево можно сделать только на серверном процессоре с большим количеством ОЗУ

slabnoff 13 июн в 08:29

Я с этим не спорю. Но интересно было бы конкретные примеры таких задач.

У меня задачи основные сейчас - opencode и работа с проектами на си/с#. Больше даже саппорт, а не что-то новое писать. То есть часто много итераций. И время итерации принципиально важно. Соответственно 35b moe модель, работающая в 2.5 раза быстрее соответственно и повышает мою продуктивность. Тем более на конкретно моих задачах разницы в результате нет (по тестам вообще должно быть небольшое преимущество у 35b).

almatt 17 июн в 05:04

Добрый день, а какие у вас GPU сейчас и какие CPU и RAM?

sopranox 8 июн в 14:21

У Openai есть открытые модели gpt-oss 20b и 120b.

slabnoff 9 июн в 13:04

И по опыту gpt-oss 20b, субъективно конечно - спецтесты не гонял, генерит лучше, чем аналогичные по размеру варианты deepseek. Еще и куда меньше артефачит (английский лишь изредка проскакивает, а у deepseek достаточно часто иероглифы сыпятся)

vchernik 8 июн в 14:46

Втрой раз пробую. Выдаёт: Error loading model.

🥲 Failed to load the model Error loading model. (Exit code: 18446744072635812000). Unknown error. Try a different model and/or config.

DonnaG 9 июн в 07:46

Судя по ошибке, проблема не в DeepSeek как таковом, а в том, что модель не смогла загрузиться в память. Чаще всего причина — нехватка ОЗУ или видеопамяти, поврежденный файл модели либо слишком агрессивные настройки.

Попробуйте:

Скачать другую версию модели (например, 7B или 8B вместо 14B/32B).\
Полностью удалить и заново скачать модель.
Перезапустить LM Studio.
Отключить GPU Offload в настройках модели и попробовать запустить на CPU.
Посмотреть вкладку Logs — там обычно есть более подробная причина ошибки.

Напишите характеристики ПК (ОЗУ, процессор, видеокарта) и какую именно модель DeepSeek пытаетесь запустить — тогда будет проще понять, в чем проблема.

vchernik 10 июн в 13:31

Спасибо за совет, но я не сомневаюсь, что проблема в железе. Я собирал ПК лет пять назад из компонент хоть и хороших, но уже устаревших.

Тип ЦП DualCore AMD Athlon 200GE, 3200 MHz (32 x 100)
Системная плата ASRock A320M-HDV R3.0
память Kingston Fury KF3600C17D4/8GX 2х8 Гб
видеоадаптер NVIDIA GeForce GT 710
размер видеопамяти 2048 Мб
SSD KINGSTON SNVS250G

Но хочется личный DS. Обновить ПК уже вряд ли получится. Надо копить пенсию на новый.;-))

Спасибо!

vl12 8 июн в 15:49

Главное не сказали в этом очерке для новичков. - Это размер чего и каковы сист. требования? Размер скачиваемого пакета? Выше пишут что это ОЗУ, ещё ниже про VRAM... Сколько надо ОЗУ, VRAM, места, CPU?

DonnaG 9 июн в 07:47

Спасибо, добавил в текст.

sanchesfree 8 июн в 18:51

Попробуйте MTP модели — multi token predictions, в 2-3 раза быстрее скорость генерации ответа. А для мака есть MTP+MLX = MTPLX :D ищите прям в названиях моделей такую строчку.

supercat1337 8 июн в 21:12

На сколько по ощущениям хуже локальный Deepseek от того, что в онлайне? Интересует работа с чатом.

Vitalis83 9 июн в 13:54

Просто поговорить, разницы не заметил особо. Опять же все разговоры с небольшим контекстом.

supercat1337 9 июн в 19:23

Ну, по-хорошему, объем контекста нужно держать на контроле.

Yuri_BY 8 июн в 21:26

Без GPU с 12GB VRAM - это только посмотреть. Что-то толковое от 7/8b моделей можно ожидать начиная с Q5_K_M. Очень хороши оказались gemma-4-12B-it-Q5_K_M и ibm-granite_granite-4.1-8b-Q6_K_L при контексте 32768. На RTX-3060/12GB они выдают около 30 t/s.

Yuri_BY 8 июн в 21:32

дополнение: и "дружат" c MCP Filesystem

kiryanton 15 июн в 06:09

Deepseek это 700B. Попробуй запусти локально. Удачи.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий