Комментарии 39
А через API такое позвать можно?
Можно. Только Distill модели это вообще не DeepSeek, это его имитация на основе LLAMA и QWEN. Как крабовое мясо ) Настоящий DeepSeek 671 миллиард параметров и запускается на количестве VMEM начиная от 1.3 Терабайт (около 20 ускорителей Tesla A100 по 80 ГБ VMEM в каждом).
Дипсик в fp8...
Спасибо за замечание, не знал, думал fp16. Ну значит затраты падают в 2 раза )))
На Ollama модель 671b приведена с квантизацией Q4_K_M и занимает 404 ГБ. Уже не выглядит чем-то нереальным :-) Но всё ещё тяжеловато, ждем пару лет, чтобы железо подкачалось.
В обычных нейронках для генерации каждого токена надо прогнать все параметры через процессор. И все сильно в память и пропускную способность упирается.
Но в дипсик MoE - для генерации одного токена используется лишь небольшое кол-во параметров, на порядок меньше веса сетки. поэтому есть возможность запускать даже на небольшом кол-ве потребительских карт (4090) с выгрузкой в RAM и даже SSD.
>> поэтому есть возможность запускать даже на небольшом кол-ве потребительских карт (4090)
Ну вот специально купил карту 3090 , но 380 ГБ RAM у меня нет.
Но даже если и было бы, далеко не каждая среда запуска поддерживает этот режим. Вот пока единственное что я нашел (релиз от 10 февраля):
Feb 10, 2025: Support Deepseek-R1 and V3 on single (24GB VRAM)/multi gpu and 382G DRAM, up to 3~28x speedup. For detailed show case and reproduction tutorial, see here (https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md).
Да скорость не ахти, порядка 10ток/с далеко не уедешь - это порядка 1млн в сутки, сравните со стоимостью их апи, в итоге за розетку больше заплатишь, а еще железо надо купить... У меня есть 64 VRAM + 512RAM, но даже я не буду этим заниматься, проще и быстрее через апи. локальный запуск для тех кому надо особую приватность и возможность сделать без цензуры.
Громкий заголовок. Но пользы ноль. Надеюсь вы просто хотели похайпиться и всё таки понимаете что DeepSeek R1 Distill это совсем не DeepSeek R1. Ну а Coder всегда можно было запустить, как и многие другие опесорс модели на куче разных фреймворках (vllm, sglang, ollama, etc).
Неизвестное расширение для API (которое может оказаться каким-то скамом или хулиганить с куками, например. Не точно, что оно это делает, но может делать в будущем). Рекомендация поставить локально дистиллированную версию без малейшего упоминания о том, что это существенно более слабое решение (совет пойти на Qwen / Grok / ChatGPT пока лежит DeepSeek и то был бы полезнее).
Предположу, что статья набрана нейронкой не более чем с 30B. Жалею, что кармы не наработал ещё для выражения своего отношения к подобному спаму на Хабре.
В вашем случае не карма нужна, а публикации
>Неизвестное расширение для API
Не совсем понял про неизвестно расширение для API автор же предлагает поставить настольные оболочки и загрузить в них дистиллированные модели или я чего-то не понял?
Про ущербность дистиллированных моделей справедливо замечено.
Собрал дополнительную фактуру про Jan.ai и решил написать более полную версию, в котором разобрать еще один способ, т.к. он пользуется популярностью и многим может быть интересен. Хочу собрать все способы локальной работы и сделать исчерпывающий материал на эту тему
Тогда добавьте для Jan.ai не забыть установить Prompt template в параметрах модели, для DeepSeek:
<|begin▁of▁sentence|>{system_prompt}<|User|>{prompt}<|Assistant|><|end▁of▁sentence|><|Assistant|>
Чтобы LLM не путала где чьи реплики, и правильно выделяла блок размышления.
По умолчанию стоит promt template как для Llama.
Разрабы DeepSeek кстати обновили свой template во всех моделях на HuggingFace, добавив в него <think>. Я не понял, это бага у них была или как:
Upd. Хотя это вроде не prompt template....
Вы сами их пробовали? Они глупые до безобразия, это вообще не DeepSeek, лучше бесплатным openai пользоваться, чем смотреть на англо-китайско-узбексие ответы от Distill моделей
Чтобы не быть голословным, вот как оно работает

2 момента:
Дистиллированная DeepSeek'ом Llama 8B, которую вы скачали, это ни о чём. Более-менее приличный результат можно получить на моделях от 14 млрд параметров и выше. Качайте максимальную модель, которая войдёт в видеопамять вашего адаптера. Меньшие модели - низкое качество, большие - запаритесь ждать ответа.
DeepSeek всё же больше заточен на математику, программирование, логику. Тем не менее, я попробовал ваш промт на локальной DeepSeek-R1-Distill-Qwen-14B-Q5_K_L, получилось на мой невзыскательный взгляд довольно интересное эссе на тему "Природа: гармония и разрушение". Кое-где попадаются китайские слова вместо русских, но тут ничего не поделаешь: локальная LLM квантованная, часть знаний о словах пропала во время квантования.
Зато очевидные плюсы: ты ни от кого не зависишь, спрашивай сколько угодно не думая о деньгах, ты ни кому не сливаешь свои исходники, Интернет не нужен - запускай LLM где угодно.
А почему способы "хитрые"? Кого именно здесь обхитрили?
Есть другой "хитрый" бесплатный способ: OpenRouter. Там бесплатно доступна DeepSeek предыдущего поколения, но даже она будет умнее и быстрее чем то, что можно запустить локально.
Так это от авторов-почитателей "Нужен простой советский...".
Кликбейт "Дипсик не работает", а ниже десятый текст по запуску даже не собственно дипсика в терабайте памяти (таких тоже пара-тройка статей уже). И конечно ссылки на телегу, сокращатель ссылок, и в оригинале до правки ещё про какое-то расширение браузера, которое потом убрали.
Есть еще один "хитрый" метод поработать с дипсиком бесплатно и без busy, спойлер: использовать дипсик запущенный другими компаниями, например NVIDIA. Там правда нельзя отправить файлы, и придется немного поколдовать через F12, чтобы чат нормально отображало, но зато уже нормальное, полноразмерное и без тупления.
Только тс-с-ссс!
Не надо ничего устанавливать..ждёте пару тройку минут, и нажимаете кнопку перезагрузка в дип пик и он начинает обрабатывать ваш запрос. Зависания эти регулярные, но не долгие
Сравнил конечно, я бы за такое банил
Если диксик не отвечает, самое время забить на него и воспользоваться qwen.
За пару недель использования понял, что теперешний dicksick глючит ещё сильнее, чем глючил ChatGPT два года назад. Недавно вообще прикол был, редактировал картинку в Inkscape и появилась у меня проблема с инструментом Shape tool, решил спросить у диксика, как решить или обойти проблему, так он мне на полном серьёзе стал втирать, что такого инструмента в Inkscape нет. Только с третьего раза, когда я ему сказал, что у меня есть кнопка с таким названием и я её прямо сейчас перед собой вижу, он согласился, что кнопка есть, но посоветовал всё равно что-то невпопад. Тогда пошёл спросил у qwen и он мне с ходу выдал решение моей проблемы.
В некоторых случаях dipseek лучше оказался чем gptchat. Последний очень сильно фантазирует, например задаю вопрос о устройстве А, даёт ответ похожий на правду. Задаю вопрос тут же о устройстве Б - даёт тоже вроде правиоьной ответ, но в нём упоминается устройство А и в прямо противоположном первому ответу смысле.
Локально dipseek щапускать практически невозможно. А вот mistral или qwen вполне, они и подобные у меня скоро будут строить переведённое с китайско-английского дерево issue с гитхаба. Каждому инструменту своя ниша.
Большинство DeepSeek ботов, которые удалось найти через глобальный поиск, либо ограничены (например, дают короткие ответы), либо V3, а не R1
OpenRouter – это еще один классный сторонний сервис. Но при этом, через него можно программно подключиться к API DeepSeek, причем бесплатно!
Тем временем:

По-моему там всё таки не DeepSeek.
Кажется весь пост ради рекламы приложения. Впрочем, приложение платное и даже для активации пробной версии требует оплату через Гугл, которая в России не работает. При этом DeepSeek там устаревшая V3, а не R1.
Можно через Plugin к Chrome решить проблему https://chromewebstore.google.com/detail/deepseek-server-busy/ilmchkjknlgjdlcokfepanfibdbifkbh
Плагин автоматически через установленный таймаут отправляет запросы к DeepSeek, чтобы не нужно было сидеть нажимать кнопку повтора вручную.

Воспользуйтесь ботом https://t.me/ChatGPTPoRusskiBot в нем есть DeepSeek и еще 15 ИИ
А API у локальной версии есть?
Дипсик не работает: Обходим ошибку Deepseek service is busy хитрыми способами