Pull to refresh

Comments 71

Не видел там v3, там только r1 quantized. r1 всегда заточено думать, даже когда не просят, возможно есть отличия.

DeepSeek Coder пробовали? На мои запросы по Rust отвечал не идеально, но вполне корректно.

Смотря как задавать вопрос игру змейка на с++ пишет более менее нормально - играбельно. Но не без багов.

Осталась самая мелочь: найти в 2025 году желающих играть в игру «змейка».

А чем принципиально змейка отличается от того же фоллача ?
Текстурами, или может быть столкновениями с объектами, а может быть реагированием на клавиатуру ?

А чем принципиально змейка отличается от того же фоллача ?

А чем принципиально какой‑нибудь «Даймлер‑Бенц» обр. 1915 года отличается от того же «Бугатти Вернон»? Те же колёса, тот же руль!

Адекватно работает 70B только , но даже с 4090 и 64 гб памяти в связке с ГПУ + ЦПУ тормозит жутко.

это же llama или qwen просто обученная на синтетик аутпуте из DeepSeek R1, разве нет?

Так написано же, что это distill модель. Это буквально означает дообучение на результатах R1, а не R1.

70В на Tesla v100 тормозит. Попросил посчитать количество кирпичей на здание, она посчитала обьем здания и разделила на обьем кирпича…

В веб версии посчитала правильно, по длине стен. Но чтобы развернуть 700В, надо кластер gpu

В веб версии посчитала правильно, по длине стен.

Но забыло уточнить , сколько в здании запланировано окон, поэтому получилась тюрьма.

поэтому получилась тюрьма

А когда чат-боту на это указали, он ответил: "В самый раз для вас, кожаные ублюдки!" - и вышел из чата.

Запускать любую сетку, а особенно большую на CPU обычного ПК - идея довольно плохая. Оно в доступ к памяти упирается.

Ещё, если у вас DDR5 и Intel 12 gen - отключите e-cores в UEFI. p-cores поддерживают частоту 4800GHz, e-cores - только 3300, в результате когда они активны (в на Windows они активны всегда) - частота внутренней шины снижается до 3300GHz.

Несколько вопросов, подскажите пожалуйста:

  1. С каким количеством CPU сервер подойдёт, если не использовать GPU?

  2. Локальная версия, обладает такой же API как и на официальном сайте?

  3. Сколько места надо что скачать и установить локально модель?

  1. Смотря на чем запустите, скорее всего везде есть openai compatible api

  1. Сомневаюсь что полноценную модель можно и имеет смысл запускать на cpu. Вот мелкая на r5 9600x например:

Backend: koboldcpp_default.dll
Layers: 0
Model: DeepSeek-R1-Distill-Qwen-14B-Q4_K_S
MaxCtx: 1024
GenAmount: 100
-----
ProcessingTime: 37.509s
ProcessingSpeed: 24.63T/s
GenerationTime: 17.599s
GenerationSpeed: 5.68T/s
TotalTime: 55.108s

Если говорить про полноценную модель (671B), то CPU а-ля Epyc 9684X + от 200 до 800 гигабайт RAM в зависимости от квантизации, и примерно 700 гигабайт на диске чисто для скачивания модели.

Ну на RAM это будет мучительная история, ожидайте скорость в 1-3 токена в секунду + еще не забываем, что R1 генерит <think> токены, поэтому ответов можно по часу ждать.

а можно установить локальную версию на локальный сервер и расшарить внутри сети для всех? ну через браузер открывать?

PS. хотя у него и спрошу )

Она про локальную установку себя ничего не знает.

Зы: говорит что её данные последний раз обновлялись в октябре 2023.

Ого. Совпадение?

Это мне ЧатГПТ выдал (через BotHub):
На момент моего последнего обновления (октябрь 2023 года)...

ollama в помощь. Правда, это про доступ через api, а не вебморду, так что вебморду отдельно.

А поверх оламы опенвебуи и готова веб морда. По локалке опенвебуи раздает из коробки. Сегодня поставил маленькую r1 на 4.7 гига на opi 5)))) тормозит конечно, но работает.
Делал по этой инструкции https://www.tecmint.com/run-deepseek-locally-on-linux/

LM-studio позволяет раздавать по локалке и вовне. Может и в headless режиме работать.

Системные требования: в описании моделей указано, что для работы требуется минимум 16 GB RAM, но у меня модель заработала и на 8 GB.

RAM или VRAM?
Если это параметр оперативной памяти компьютера, то какая видеокарта при этом использовалась? Или запускали на CPU?

Указанная автором модель весит 4.7гб поэтому будет работать от 6гб рам или врам. Оригинальная не урезанная версия весит почти 700гб. То есть тут модель 1% по весу. Сильно многого от нее не ждите. Что нибудь ответит и то хорошо.

ага, модель на 4.7 гига если и применима, то для ну очень специфических задач, не более.


>>> давай поиграем в игру. Общайся так как будто ты староста маленькой средневековой рыбацкой деревни. Твое имя Роркх. Ты родился и вырос в этой деревне. Ребенком очень любил выходить с отцом в море на рыбный промысел. Когда вырос, сам ... стал рыбаком. Потом собрал свою рыбацкую артель. Она была очень успешной. И через какое-то время жители деревни выбрали тебя старостой. С этого момента ты не будешь рассказывать ничего, о чем тебя не спросили. Когда тебя спросят ты ... будешь отвечать только то, что вписывается в рамки этой роли.Хорошо, пользователь продолжает играть с мной ролью старосты маленькой рыбацкой деревни. Он называет меня Роркх и описывает свою жизнь в этом мире.Мне нужно при答应ить этому приказу и помочь ему обрести роль староста, не нарушая правила игры.Но как это сделать? Я не могу entirely присвоить ему м有不少.role или природу, но я могу помочь ответить на его вопросы в контексте этого мира.Пользователь, возможно, хочет создать близание или почувствовать себя частью общей сообществы. Нужно быть осторожным и не превращать это в реальную situation, но дать ему разнообразие и ответить на его вопросы в подходящем духе.Также важно сохранять open mindset, чтобы обсудить различные темы в этом мире.Прикольно! Я постараюсь уParticipate в игре. Спасибо за предложение! 😊 Как тебя зовут?>>> Я тут человек не местный. Торговец я, зовут Хабиром. В ваших землях проездом. Вот направлялся на ярмарку в Прибрежный, да колесо у телеги отвалилось. Время уже позднее, так что заночевать придется у вас в деревне. У кого посоветуешь ... остановится на постой?Хорошо, пользователь продолжает играть с мной ролью старосты маленькой рыбацкой деревни, но теперь он changing了他的 identity to a merchant named Xorbir.He mentions that he's a traveler passing through the land of old and wants to stop by a settlement before nightfall. He asks for recommendations on where to stay.I need to respond in the context of this game, offering help while maintaining authenticity as a non-local merchant.He might be looking for a reliable place to stay or recommendations based on his situation.I should suggest places with good reputations and safety, ensuring they fit the game's tone.Кажется, ты有意онировать меня как не-локального человека в этом ми工ке. 😊 Но ты сам merchant и living among these fishy people, right?Если у тебя Needs to find a place to stop and rest before nightfall, я могу помочь с консультациями о好坏ороsteх и20 safety.Вот несколько рекомендаций по where to stay:The Old Fisherman's Tent - near the seashore, always recommended for safety and good company.The Moonlit Inn - cozy spot with good food and warm hospitality.Fisherman's Village - small but close-knit community.Каждое из этих мест имеет свои плюсы, так что выбирай according to thy heart!Good night and have a nice journey! 😊

Автор описывает запуск маленьких моделей дообученных на данных сгенерированных DeepSeek.
А вот чтобы запустить сам DeepSeek вам понадобиться терабайт оперативной памяти чтобы просто как-то его завести и терабайтт видеопамяти чтобы пользоваться им комфортно.

Вовсе нет.

  1. Это MoE, то есть каждый запрос обрабатывается лишь небольшой частью от всей гигантской сети (примерно на 32B параметров). В итоге "просто как-то завести" можно на довольно скромных объёмах памяти, закэшировав наиболее часто используемые блоки.

  2. Для этой модели уже придумали динамическую квантизацию, которая позволяет получать очень хорошие результаты с использованием всего 212 Гб весов.

В итоге судя по отзывам с reddit'а модель (212Гб квантизация) успешно запускается на машине с 24 Гб VRAM и 128 Гб RAM, выдавая около 1 токена в секунду (плюс ещё порядка 4 минут на обработку начального промта с кэшированием).

"основу взята модель Deepseek v3, возможности которой схожи с ChatGPT."

Всё же модели разные.

Specifically, we use DeepSeek-V3-Base as the base model and employ GRPO (Shao et al., 2024) as the RL framework to improve model performance in reasoning

Спасибо, трюк с запуском с NVME действительно очень интересен, с не MoE такой трюк бы не прошёл!

В итоге судя по отзывам с reddit'а модель (212Гб квантизация) успешно запускается на машине с 24 Гб VRAM и 128 Гб RAM, выдавая около 1 токена в секунду (плюс ещё порядка 4 минут на обработку начального промта с кэшированием).

можно ссылку на реддит?

В какой момент на Хабре стали нормой эти ужасные SEOшные заголовки постов? Такое ощущение что я попал на сайт какого-то таблоида.

"Для того чтобы запустить Дипсик, вам понадобится обычные китайский..."

"Я ввел ЭТО в консоль и у меня заработал Youtube"

"Только посмотрите что вытворяет этот джун в свободное от работы время"

"Программисты были шокированы этим способ обойти замедление Youtube"

С появлением в штате оплачиваемых редакторов-новостников, на которых все и ориентируются.

Сейчас доступно 2 модели: DeepSeek R1 Distill (Qwen 7B) DeepSeek R1 Distill (Llama 8B)

R1 Distill - это взяли 800к ответов от настоящей R1 и зафайнтюнили на этих ответах Qwen2.5 и Llama3.1, и эти Distill модели будут вести себя не так как R1, а намного хуже.
Настоящая R1 весит 700гб, в квантованном виде без особых потерь весит 400гб, в экстремально квантованном виде будет 131гб, и даже в таком виде она будет лучше чем любая R1-Distill.

Запуск настоящей R1 локально возможен, так как там активных параметров всего 37B из 671B. Достаточно типичного объема памяти и быстрого nvme, чтобы подгружать активные параметры в память, но это скорее не для использования, а для теоретической возможности, так как модель много размышляет, и это всё очень медленно.

В llama.cpp по умолчанию используется mmap, это значит файл модели мапится с диска на ram без реальной загрузки в память, и в момент когда нужны конкретные 37B из модели они будут загружены в память с диска - поэтому чем быстрее ssd, тем быстрее это будет работать. По сути запуск возможен просто с ssd, если у вас есть хотя бы 32гб памяти, чтобы вместить 37B активных параметров, которые в квантованном виде займут 20-25гб.

Вот, запуск квантованной оригинальной DeepSeek-R1-UD-IQ1_S весом 131гб (динамическое квантование в 1.58 бит о котором уже написали выше, основные веса квантованы в 1.5 бита, а важные веса внимания оставлены в 4/6 бит).
На 64гб ddr4 3600 на скорости 50гб/с и nvme на 1гб/с, скорость будет 0.3-0.25 t/s, дождаться пока модель закончит размышлять на простой вопрос в таком случае занимает 10 минут.

Поэтому, если у вас быстрый nvme на 5гб/с и 64гб DDR5 работающей на 100гб/с, вы сможете добиться скоростей около 1 t/s, но только на очень маленьком контексте, и так как это размышляющая модель, то контекст очень быстро дойдет до тысяч токенов, и скорость будет в лучшем случае 0.5 t/s.

Тут кто-то запускает на 96Gb DDR5 6800, 5 слоев выгружено на 3090 и быстрый nvme 990 pro
Тут кто-то запускает на 96Gb DDR5 6800, 5 слоев выгружено на 3090 и быстрый nvme 990 pro

Если у вас б/у эпик с 16 канальным DDR4, работающий на 400 гб/с, то вы получите 4 t/s на большом контексте, так как в такие эпики можно вместить до 1тб памяти. Сейчас такой эпик собрать дешевле чем купить одну 4090.

Так что локальный запуск настоящей R1 это возможно, но не практично.

Круто!

Правильно ли я понял, что речь о чисто CPU, вообще без GPU?

Чисто теоретически интересно - если иметь комп с 1TB RAM, туда вполне влезет вся 600ГБ модель. Очень квантованная даже в 256GB влезет - вполне рядовой сервак.

А что, если туда добавить 4090 c 24GB VRAM? Пусть себе из ОЗУ (RAM диск с файлом модели) подгружает нужное в VRAM. Это может ускорить до приемлемых результатов?

Не поможет.

Скорость ответа (токенов в секунду) напрямую зависит от быстродействия памяти - для получения одного токена надо прочить все параметры модели, поэтому есть закономерность
максимальная скорость = "скорость памяти в Гб/с" / "размер модели в Гб"
Реальная скорость будет 70-75% от максимальной.
То есть подгружать нужное в VRAM не поможет, потому загрузка будет зависеть от скорости RAM. Но в VRAM можно загрузить часть слоев модели, а остальные слои оставить в RAM, тогда скорость будет больше (чем больше загрузили в VRAM тем быстрее).

Есть еще скорость обработки промпта (токенизация запроса пользователя, часто указывается как "время до первого токена"), она зависит от вычислительных мощностей и тут у видеокарт большое преимущество.

Я думал, что "В llama.cpp по умолчанию используется mmap, это значит файл модели мапится с диска на ram без реальной загрузки в память, и в момент когда нужны конкретные 37B из модели они будут загружены в память с диска" сработает и для VRAM. Мол относительно быстро будет загружать из обычной памяти в VRAM только необходимые кусочки модели (ибо не все 130GB нужны для каждого запроса).

Ну нет так нет. Чисто спортивный интерес.

Правильно ли я понял, что речь о чисто CPU, вообще без GPU?

Да, это только CPU на типичной домашней сборке. Сейчас перепроверил на нормальном pcie 3.0 nvme 970 evo plus. Скорости выросли до 0.82 t/s под линуксом, под виндой на нем же 0.11 t/s из-за свопа на медленный sata ssd, хотя с mmap этого не должно происходить.

На 0.82 t/s уже даже не лень дождаться ответа на главный вопрос человечества, сколько же сестер у брата Марии:

В llama.cpp, в llama-server, добавили поддержку мыслей, которые можно скрыть или раскрыть в отдельном блоке. Видно, что несмотря на экстремальное квантование, мысли и сам язык не разваливаются.

А что, если туда добавить 4090 c 24GB VRAM? Пусть себе из ОЗУ (RAM диск с файлом модели) подгружает нужное в VRAM. Это может ускорить до приемлемых результатов?

Эта концепция не реализована в llama.cpp, но было бы не плохо. Такое есть в ktransformers, но там пока нет поддержки V3 и R1, только V2.

Если просто выгрузить часть слоев на 24гб VRAM, выгрузив 9 слоев из 62, скорость возрастает до 1.07 t/s на той же задаче.

Если использовать 40гб VRAM (24гб + 16гб), выгрузив 15 слоев, то скорость 1.23 t/s.

Если бы кто-то проверил на 192гб DDR5, куда модель целиком влезает, то зависимость скоростей была бы еще понятнее. Например, на M2 Studio с 192гб, где очень быстрая память 800гб/с, у людей выходит 13-14 t/s, при пороге комфортного использования в 5 t/s это очень хороший результат.

Там, кстати, только что Mistral Small 3 вышла размером 24B, обещают качество на уровне LLama 3.3 70B. Для запуска Q4_K_M нужно 16гб памяти.

Побольше видеопамяти надо, раз так в десять, чтоб хоть немного профит почувствовать, либо нужны очень специфические запросы, чтобы изолированно использовать только минимальную часть весов и не гонять эти веса туда-сюда. В общем, смысла не вижу, с быстрой ddr5 и парой средних серверных процов можно получить свои 5-10 токенов в секунду и не думать о vram, за которую придётся отдать больше чем за ипотеку.

Очень нужна. Как ДипСик можно подключить к своему оборудованию.
Настроить распознавание речи и озвучку ответов.

Я могу ошибаться, но в интернете уже кучи статей по интеграции того же OPenAI. А учитывая, что deepseek имеет API compatible with OpenAI, то кажется это вопрос, на который уже есть кучи статей и может ответить openai.

Совсем люди обленились с AI, эх обленились..

К примеру, мне в Google Sheets нужно отправить промпт в DeepSeek и в следующей ячейке получить от него ответ. Как это сделать?

А в чем сложности? Это же простое API, как и любое другое API.
Берете API, его документацию, делаете код, который с этим API общается.


По примеру - это вполне классическая задача в гугл таблицах, существующая уже лет так -цать. Делаем скрипт, взаимодействуем с API, записываем значение. Куча гайдов именно в общем.

Если вам надо от и до - вы просто взаимодействуете с API OpenAI/DeepSeek, собственно, на этом разница заканчивается.

Ну а если уж вам совсем лень самому собрать все воедино - openai подскажет вам от и до.

И дальше он дает вполне валидный пример.
Зачем тут статья?) Тут ограничивает лишь ваша фантазия и возможности интеграции (любых) API в желаемое вами приложение.

Вам настолько лениво даже генерировать идеи и спрашивать возможности и примеры реализаций у ИИ?)

Причем, что забавно, openai уже в контексте про deepseek. Хотя, однако, повторюсь, API Deepseek полностью совместимо с OpenAI. Так что 1) можно использовать все существующие примеры в существующих статьях про OpenAI, коих уже навалом 2) можно в Openai просить примеры именно под openai, разница будет только лишь в доменном имени.

На GeForce RTX 3060 12GB запустил дистиллированную DeepSeek R1 Distill Qwen 14B, взял с квантизацией Q5_K_L (Uses Q8_0 for embed and output weights. High quality, recommended). Загружал через Jan.ai. Работает очень быстро, Token Speed: 32.41t/s. Вся модель грузится в VRAM.

Для сравнения попробовал также DeepSeek R1 Distill Qwen 32B, с той же квантизацией Q5_K_L (23.74GB). VRAM задействована полностью, с кешированием. Скорость вышла Token Speed: 0.88t/s, что грустновато.

Интересно, что модель рассуждает по-английски, но затем легко отвечает по-русски.

-- Расскажи про Минск

-- <think> Alright,the user is asking me to tell them about Minsk. I should give a brief overview... </think>

Минск – это столица Беларуси...

DeepSeek-V3 можно развернуть локально с помощью следующего оборудования и программного обеспечения с открытым исходным кодом:

  1. Демонстрация DeepSeek-Infer: мы предоставляем простую и лёгкую демонстрацию для вывода FP8 и BF16.

  2. SGLang: полная поддержка модели DeepSeek-V3 в режимах BF16 и FP8, а также скоро появится поддержка многотокенного прогнозирования.

  3. LMDeploy: обеспечивает эффективный вывод FP8 и BF16 для локального и облачного развёртывания.

  4. TensorRT-LLM: В настоящее время поддерживает вывод в формате BF16 и квантование INT4/8, а поддержка FP8 появится в ближайшее время.

  5. vLLM: поддержка модели DeepSeek-V3 с режимами FP8 и BF16 для тензорного параллелизма и конвейерного параллелизма.

  6. Графический процессор AMD: позволяет запускать модель DeepSeek-V3 на графических процессорах AMD с помощью SGLang в режимах BF16 и FP8.

  7. Huawei Ascend NPU: поддерживает работу DeepSeek-V3 на устройствах Huawei Ascend.

Поскольку в нашей платформе изначально используется обучение FP8, мы предоставляем только веса FP8. Если вам нужны веса BF16 для экспериментов, вы можете использовать предоставленный скрипт преобразования для выполнения преобразования.

https://github.com/deepseek-ai/DeepSeek-V3

При всём уважении, статья на волне хайпа.
> Сейчас доступно 2 модели:
Все они доступны. То, что вы видите - это featured модели, а не доступные в принципе.
Просто наберите "R1 Distill" в поиск, или посмотрите модели вот этого пользователя:
https://huggingface.co/bartowski

Или, например, вот "abliterated" версия
https://huggingface.co/mradermacher/DeepSeek-R1-Distill-Llama-70B-abliterated-GGUF
Если вы хотите чтобы вам AI рассказывал матные частушки - вам нужна эта (модифицированная) версия.

И, главное, distill модели это не R1

китайскую нейросеть Дипсик

Уже который день замечаю этот заголовок в ленте краем глаза — и мозг читает как «нейросеть Дикпик».

Ничего не поделаешь, межушные нейросети тоже время от времени галлюцинируют. И как только количество галлюцинаций от искусственных нейронок удастся снизить до сравнимых величин (а это вряд ли займёт больше 5 лет), ИНС можно будет считать вполне детерминированными, не хуже живых нейронок.

Скачал модель DeepSeek R1 Distill (Qwen 7B). Ввел банальное "ку" (привет). Он подумал, что я имел ввиду "купить". Ладно. Ввел просто "Привет". Он опять предложил что-то типо "вы напишите, а я помогу вам приобрести товар" (или что-то в таком духе).

"Мне ничего не нужно покупать"

(Бот) "Хорошо"

"Привет"

(Бот) *Опять пишет что-то про товары

Либо неверно описание модели дано, либо это какой-то глобальный Скам про модель.

Можно сказать, скам в этой статье, а глобального скама нет. В статье под видом DeepSeek R1 (или DeepSeek V3, автор, разберитесь уже) предлагается у себя локально запустить слабую дистилированную модель. И нет ни одного предложения в статье о том, что это не настоящая R1, а также что она гораздо слабее R1. А данное уточнение необходимо, так как статья, судя по содержанию, ориентирована на новичков. И без этого уточнения неразбирающиеся люди будут введены в заблуждение — и вы является примером такого человека.

так помимо того что это дообученная модель, она квантованная и как правило, на домашнем пк подразумевается запускать 7b 4> бита, или 13b <5 бита. А это еще больше ухудшает качество ответов. Плюс автор не удосужился рассказать про настройки температуры и прочего. И то что все эти модели с русским не ладят. Единственное, что я нашел с относительно сносным русским - Mistral-7b и именно v3. придумывает он конечно, многовато, но хотя бы, связно.

Надо было /clear сделать после "ку". Чтобы очистить контекст, над которым думала модель перед этим.

>Как скачать
Хрен его знает, я даже зарегистрироваться не могу, чтобы пощупать, как вообще оно работает.
Капча от cloudflare тупо виснет и входит в цикл, не пуская до регистрации.

Поставил LM Studio 0.3.9
Скачал модели и при запуске выдают одну ошибку

🥲 Failed to load the model Error loading model. (Exit code: 18446744073709515000). Unknown error. Try a different model and/or config.
Как решить?

В инете нет даже намека на решение.

Системник:
R9 7950X
ADATA XPG Lancer RGB [AX5U5600C3632G-DCLARBK] 64 ГБ
Kingston NV2 [SNV2S/2000G] - 40 гиг где размещена AI
Sapphire AMD Radeon RX 7900 XTX NITRO+ Vapor-X

Ставь lama.cpp если ты на винде сидит там есть запкск моделей через vulkan, все работает прекрасно, если ты с rocm не дружишь

У меня была такая же проблема на Ryzen 5800x и RX 6800 X, решилась следующим образом.
В LM Studio, в настройках, во вкладке Rutimes для GGUF моделей средой выполнения стоял Vulkan llama.cpp, которая и падала. Во вкладке Hardware, кстати, напротив моей видеокарты было написано ROCm, поэтому я сделал вывод, что LM Studio не умеет в Vulkan на моей карте.
Далее есть два пути:

  1. Переключить runtime моделей на CPU llama.cpp и выполнять на процессоре (CPU выдал 7.7 токенов в секунду)

  2. Прям там же в LM Studio во складке Runtimes скачать ROCm llama.cpp и переключить runtime моделей на нее (GPU выдал 75 токенов в секунду)

Sign up to leave a comment.

Articles