Comments 26
По моему опыту, модели Jan также хорошо подходят для локалного использования.
а по системным требованиям для q4, например?
И кому нужен этот древний мусор сейчас, тем более что это не DeepSeek а дистилляция. Ставить надо последние модели: Qwen3.6-27B - лучшая сейчас для локального использования на одной карте с 24Gb VRAM, потом Gemma-4-31B похуже для кодинга, Qwen3.6-35B, Gemma-4-26B, Gemma-4-12B и все.
Выбираете что у вас потянет и ставите.
Qwen3.6-27B уровень в кодинге почти Sonnet4.5 / GPT5.2
Gemma-4-12B у думаю будет посильнее Haiky4.5
Qwen3.6-35B очень неплохой вариант для кодинга оказался. Через cpu-moe можно развернуть на хилой видеокарте (правда время первого токена совсем грустное конечно, я в итоге купил второй gpu). А если достаточно vram начинает летать - у меня сейчас 80 т/с, в то время как 27b не сильно лучше по кодингу, но на моем железе кое как 30 т/с и в более чем в два раза больше время первого токена (0.5 и более 1 с соответственно). Если железо позволяет, то 27b конечно сейчас самое лулучшее.
У deepseek вообще как-то все грустно с tool calls. То есть для чатиков разве что годится
У Qwen3.6-35B -A3B всего 3B активных параметров, он очень неплохая, но не настолько умная как Qwen3.6-27B где все параметры активные.
Как убедится? Простой тест попросить сгенерить 3d анимацию в виде HTML файла
Промпт для ваншот генерации, то есть генерится по промпту, генерилось в UI встроенном в llama.cpp server. Интерфейс там как в LMStudio, но чуть по проще.
Промпт
# Task: Create an Interactive 3D Aquarium Scene
You are an expert frontend and 3D graphics developer.
Your task is to generate a COMPLETE working web page that renders
an interactive 3D aquarium scene which the user can rotate and explore.
---
## Main Goal
Create a **3D scene of an aquarium with animated fish**.
The final result must:
- render in a browser
- be interactive
- allow camera rotation
- contain animated fish swimming inside the aquarium
---
## Technical Requirements
You may use ANY suitable technology, but prefer:
- Three.js (preferred)
- WebGL
- or another browser-native 3D solution
Do NOT use heavy frameworks unless necessary.
The result must be contained in **a single HTML file** with embedded JS and CSS.
---
## Scene Requirements
### Aquarium
- Transparent glass aquarium
- Rectangular or rounded tank
- Visible water volume
- Slight refraction or transparency effect
- Subtle lighting and reflections
### Fish
- Multiple fish (at least 5)
- Fish must:
- swim continuously
- change direction smoothly
- rotate naturally while moving
- stay inside aquarium bounds
- Movement must be procedural (not static animation)
### Environment
- Soft underwater lighting
- Slight blue tint
- Optional bubbles or particles
---
## Interaction
User must be able to:
- rotate camera (mouse drag)
- zoom in/out (scroll wheel)
- orbit around aquarium
Use orbit controls or equivalent.
---
## Animation
- Continuous animation loop
- Smooth FPS
- Fish movement must feel alive (randomized paths)
---
## Code Quality
- Clean readable code
- Comments explaining important parts
- No placeholders
- Fully runnable immediately after copy-paste
---
## Output Format
Return ONLY:
1. Complete HTML file
2. No explanations
3. No markdown commentary
4. No extra text
The result must work immediately when opened in a browser.


Это скриншоты, в реальности это анимация, рыбы плавают, пузырьки двигаются, трава шевелится.
Попробуйте сами сгенерить по промпту в Haiky или Sonnet или еще в чем.
Пробовал подобное, абсолютно с вами согласен, что на сложных задачах 27b может быть сильно адекватнее. Но по опыту решать задачи анализа и программирования на Си и c# и питоне уже получается сопоставимо. То есть до определенного уровня сложности moe модель получается эффективнее из-за значительного прироста скорости.
У меня сейчас, к сожалению, слишком хилое железо для 27b - 5060ti 16 gb и tesla t10 16gb (по сути 2080ti поджатая по потреблению). Вот минуту назад сделанный замер скорости: 1.37 с ttft и 30.4 т/с для 27b, 0.54 с ttft и 81 т/с для 35b. Так что приходится идти на компромисс и сидеть пока, до апгрейда, на 35b, запуская 27b только при острой необходимости.
30 т/с вполне хорошая скорость. Некоторым людям даже 10 т/с хватает для задач программирования.
10 т/с это боль. Как правило такие скорости сопровождаются и высоким ttft. В итоге обойти проект и найти уязвимости - можно два раза кофе попить и три раза покурить.
Не так давно все научились через cpu-moe запускать Qwen3.6-35b. И я вместе с ними. Добился 60 т/с, но ttft порядка 5 (иногда 10!!!) секунд - обход проекта все также боль. Добавил второй gpu - получил небольшой прирост до 81 т/с и НА ПОРЯДОК снизил ttft - 0.53 с. Вот реально стало комфортно пользоваться.
Еще один ну очень интересный момент. Оказывается 35b MOE модель для некоторых задач имеет преимущество (есть предположение, что дополнительно дообучена; я в целом сам удивился, когда узнал):
Terminal-Bench 2.0 Агентное программирование в терминале 41.6% и 51.5%
QwenWebBench Генерация фронтенд-кода (UI/UX) 1068 (Elo) 1397 (Elo)
Если цель - получить ответ как можно быстрее, то 10 т/с может быть недостаточно, но если нужно просто решить задачу значительно быстрее, чем это было бы вручную, то здесь уже всё не так однозначно, особенно если нужно локально запускать большие модели, что относительно дешево можно сделать только на серверном процессоре с большим количеством ОЗУ
У Openai есть открытые модели gpt-oss 20b и 120b.
Втрой раз пробую. Выдаёт: Error loading model.
🥲 Failed to load the model
Error loading model.
(Exit code: 18446744072635812000). Unknown error. Try a different model and/or config.
Судя по ошибке, проблема не в DeepSeek как таковом, а в том, что модель не смогла загрузиться в память. Чаще всего причина — нехватка ОЗУ или видеопамяти, поврежденный файл модели либо слишком агрессивные настройки.
Попробуйте:
Скачать другую версию модели (например, 7B или 8B вместо 14B/32B).\
Полностью удалить и заново скачать модель.
Перезапустить LM Studio.
Отключить GPU Offload в настройках модели и попробовать запустить на CPU.
Посмотреть вкладку Logs — там обычно есть более подробная причина ошибки.
Напишите характеристики ПК (ОЗУ, процессор, видеокарта) и какую именно модель DeepSeek пытаетесь запустить — тогда будет проще понять, в чем проблема.
Спасибо за совет, но я не сомневаюсь, что проблема в железе. Я собирал ПК лет пять назад из компонент хоть и хороших, но уже устаревших.
Тип ЦП DualCore AMD Athlon 200GE, 3200 MHz (32 x 100)
Системная плата ASRock A320M-HDV R3.0
память Kingston Fury KF3600C17D4/8GX 2х8 Гб
видеоадаптер NVIDIA GeForce GT 710
размер видеопамяти 2048 Мб
SSD KINGSTON SNVS250G
Но хочется личный DS. Обновить ПК уже вряд ли получится. Надо копить пенсию на новый.;-))
Спасибо!
Главное не сказали в этом очерке для новичков. - Это размер чего и каковы сист. требования? Размер скачиваемого пакета? Выше пишут что это ОЗУ, ещё ниже про VRAM... Сколько надо ОЗУ, VRAM, места, CPU?
Попробуйте MTP модели — multi token predictions, в 2-3 раза быстрее скорость генерации ответа. А для мака есть MTP+MLX = MTPLX :D ищите прям в названиях моделей такую строчку.
На сколько по ощущениям хуже локальный Deepseek от того, что в онлайне? Интересует работа с чатом.
Без GPU с 12GB VRAM - это только посмотреть. Что-то толковое от 7/8b моделей можно ожидать начиная с Q5_K_M. Очень хороши оказались gemma-4-12B-it-Q5_K_M и ibm-granite_granite-4.1-8b-Q6_K_L при контексте 32768. На RTX-3060/12GB они выдают около 30 t/s.
дополнение: и "дружат" c MCP Filesystem
Как установить DeepSeek на ПК, чтобы пользоваться им без интернета