Как стать автором
Обновить

Комментарии 39

Можно. Только Distill модели это вообще не DeepSeek, это его имитация на основе LLAMA и QWEN. Как крабовое мясо ) Настоящий DeepSeek 671 миллиард параметров и запускается на количестве VMEM начиная от 1.3 Терабайт (около 20 ускорителей Tesla A100 по 80 ГБ VMEM в каждом).

Спасибо за замечание, не знал, думал fp16. Ну значит затраты падают в 2 раза )))

На Ollama модель 671b приведена с квантизацией Q4_K_M и занимает 404 ГБ. Уже не выглядит чем-то нереальным :-) Но всё ещё тяжеловато, ждем пару лет, чтобы железо подкачалось.

В обычных нейронках для генерации каждого токена надо прогнать все параметры через процессор. И все сильно в память и пропускную способность упирается.
Но в дипсик MoE - для генерации одного токена используется лишь небольшое кол-во параметров, на порядок меньше веса сетки. поэтому есть возможность запускать даже на небольшом кол-ве потребительских карт (4090) с выгрузкой в RAM и даже SSD.

>> поэтому есть возможность запускать даже на небольшом кол-ве потребительских карт (4090)

Ну вот специально купил карту 3090 , но 380 ГБ RAM у меня нет.

Но даже если и было бы, далеко не каждая среда запуска поддерживает этот режим. Вот пока единственное что я нашел (релиз от 10 февраля):

Feb 10, 2025: Support Deepseek-R1 and V3 on single (24GB VRAM)/multi gpu and 382G DRAM, up to 3~28x speedup. For detailed show case and reproduction tutorial, see here (https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md).

Да скорость не ахти, порядка 10ток/с далеко не уедешь - это порядка 1млн в сутки, сравните со стоимостью их апи, в итоге за розетку больше заплатишь, а еще железо надо купить... У меня есть 64 VRAM + 512RAM, но даже я не буду этим заниматься, проще и быстрее через апи. локальный запуск для тех кому надо особую приватность и возможность сделать без цензуры.

Громкий заголовок. Но пользы ноль. Надеюсь вы просто хотели похайпиться и всё таки понимаете что DeepSeek R1 Distill это совсем не DeepSeek R1. Ну а Coder всегда можно было запустить, как и многие другие опесорс модели на куче разных фреймворках (vllm, sglang, ollama, etc).

Неизвестное расширение для API (которое может оказаться каким-то скамом или хулиганить с куками, например. Не точно, что оно это делает, но может делать в будущем). Рекомендация поставить локально дистиллированную версию без малейшего упоминания о том, что это существенно более слабое решение (совет пойти на Qwen / Grok / ChatGPT пока лежит DeepSeek и то был бы полезнее).

Предположу, что статья набрана нейронкой не более чем с 30B. Жалею, что кармы не наработал ещё для выражения своего отношения к подобному спаму на Хабре.

Больше десяти лет читаю Хабр, но комментировать только недавно начал. Думаю, что в следующие десять лет публикации тоже появятся :)

>Неизвестное расширение для API

Не совсем понял про неизвестно расширение для API автор же предлагает поставить настольные оболочки и загрузить в них дистиллированные модели или я чего-то не понял?

Про ущербность дистиллированных моделей справедливо замечено.

Подозреваю, что статью сильно подредактировал автор. Когда оставил коммент, одним из способов предлагалось поставить какое-то левое расширение для браузера, якобы дающее доступ к DeepSeek API.

Собрал дополнительную фактуру про Jan.ai и решил написать более полную версию, в котором разобрать еще один способ, т.к. он пользуется популярностью и многим может быть интересен. Хочу собрать все способы локальной работы и сделать исчерпывающий материал на эту тему

Тогда добавьте для Jan.ai не забыть установить Prompt template в параметрах модели, для DeepSeek:

<|begin▁of▁sentence|>{system_prompt}<|User|>{prompt}<|Assistant|><|end▁of▁sentence|><|Assistant|>

Чтобы LLM не путала где чьи реплики, и правильно выделяла блок размышления.

По умолчанию стоит promt template как для Llama.

Разрабы DeepSeek кстати обновили свой template во всех моделях на HuggingFace, добавив в него <think>. Я не понял, это бага у них была или как:

https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B/commit/6602cadec947dbb53e64f3d8d6425320b2197247

Upd. Хотя это вроде не prompt template....

Тегом <think> модель помечает размышление. Непосредственно ответ на вопрос она выдаёт после этого блока. Иногда интересно почитать, как она пришла к тому или иному выводу.

Вскоре автор найдёт ещё Msty и мы увидим на Хабре продолжение статьи, будет написано, чем лучше Jan.ai :-)

Вы сами их пробовали? Они глупые до безобразия, это вообще не DeepSeek, лучше бесплатным openai пользоваться, чем смотреть на англо-китайско-узбексие ответы от Distill моделей

Чтобы не быть голословным, вот как оно работает

2 момента:

  1. Дистиллированная DeepSeek'ом Llama 8B, которую вы скачали, это ни о чём. Более-менее приличный результат можно получить на моделях от 14 млрд параметров и выше. Качайте максимальную модель, которая войдёт в видеопамять вашего адаптера. Меньшие модели - низкое качество, большие - запаритесь ждать ответа.

  2. DeepSeek всё же больше заточен на математику, программирование, логику. Тем не менее, я попробовал ваш промт на локальной DeepSeek-R1-Distill-Qwen-14B-Q5_K_L, получилось на мой невзыскательный взгляд довольно интересное эссе на тему "Природа: гармония и разрушение". Кое-где попадаются китайские слова вместо русских, но тут ничего не поделаешь: локальная LLM квантованная, часть знаний о словах пропала во время квантования.

Зато очевидные плюсы: ты ни от кого не зависишь, спрашивай сколько угодно не думая о деньгах, ты ни кому не сливаешь свои исходники, Интернет не нужен - запускай LLM где угодно.

+++ он не просто Тупее он как младший брат рожденный от 3х родственных браков и ударенный паленом раз 10 по голове:) зачем это тут вообще не понимаю поугарать?

А почему способы "хитрые"? Кого именно здесь обхитрили?

Есть другой "хитрый" бесплатный способ: OpenRouter. Там бесплатно доступна DeepSeek предыдущего поколения, но даже она будет умнее и быстрее чем то, что можно запустить локально.

Так это от авторов-почитателей "Нужен простой советский...".

Кликбейт "Дипсик не работает", а ниже десятый текст по запуску даже не собственно дипсика в терабайте памяти (таких тоже пара-тройка статей уже). И конечно ссылки на телегу, сокращатель ссылок, и в оригинале до правки ещё про какое-то расширение браузера, которое потом убрали.

Есть еще один "хитрый" метод поработать с дипсиком бесплатно и без busy, спойлер: использовать дипсик запущенный другими компаниями, например NVIDIA. Там правда нельзя отправить файлы, и придется немного поколдовать через F12, чтобы чат нормально отображало, но зато уже нормальное, полноразмерное и без тупления.

Только тс-с-ссс!

Не надо ничего устанавливать..ждёте пару тройку минут, и нажимаете кнопку перезагрузка в дип пик и он начинает обрабатывать ваш запрос. Зависания эти регулярные, но не долгие

Если диксик не отвечает, самое время забить на него и воспользоваться qwen.

За пару недель использования понял, что теперешний dicksick глючит ещё сильнее, чем глючил ChatGPT два года назад. Недавно вообще прикол был, редактировал картинку в Inkscape и появилась у меня проблема с инструментом Shape tool, решил спросить у диксика, как решить или обойти проблему, так он мне на полном серьёзе стал втирать, что такого инструмента в Inkscape нет. Только с третьего раза, когда я ему сказал, что у меня есть кнопка с таким названием и я её прямо сейчас перед собой вижу, он согласился, что кнопка есть, но посоветовал всё равно что-то невпопад. Тогда пошёл спросил у qwen и он мне с ходу выдал решение моей проблемы.

В некоторых случаях dipseek лучше оказался чем gptchat. Последний очень сильно фантазирует, например задаю вопрос о устройстве А, даёт ответ похожий на правду. Задаю вопрос тут же о устройстве Б - даёт тоже вроде правиоьной ответ, но в нём упоминается устройство А и в прямо противоположном первому ответу смысле.

Локально dipseek щапускать практически невозможно. А вот mistral или qwen вполне, они и подобные у меня скоро будут строить переведённое с китайско-английского дерево issue с гитхаба. Каждому инструменту своя ниша.

Большинство DeepSeek ботов, которые удалось найти через глобальный поиск, либо ограничены (например, дают короткие ответы), либо V3, а не R1

Кажется весь пост ради рекламы приложения. Впрочем, приложение платное и даже для активации пробной версии требует оплату через Гугл, которая в России не работает. При этом DeepSeek там устаревшая V3, а не R1.

В родном чате сразу обе модели используется, причем они дополняют друг друга, а не заменяют. V3 - дает ответ пользователю, а R1 - показывает как она этот ответ готовит (рассуждает) и в его рассуждении ответа может и не быть. Основная всё таки V3, а не R1.

Можно через Plugin к Chrome решить проблему https://chromewebstore.google.com/detail/deepseek-server-busy/ilmchkjknlgjdlcokfepanfibdbifkbh

Плагин автоматически через установленный таймаут отправляет запросы к DeepSeek, чтобы не нужно было сидеть нажимать кнопку повтора вручную.

DeepSeek Server Busy
DeepSeek Server Busy

А API у локальной версии есть?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации