Как стать автором
Обновить

DeepSeek R1: раскройте возможности моделей DeepSeek R1. Полное руководство для новичков и экспертов

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров30K
Всего голосов 13: ↑6 и ↓70
Комментарии8

Комментарии 8

Вообще сильно проше поставить LM Studio, там и поисковик моделей есть и api если нужно, и они сразу в 4bit формате. И зачем вы людям про 32b пишите, для ее запуска нужна как минимум 4090. Для новичков 7b, самое то. То что вы пишите это вообще не средний уровень, это уже как бы продвинутый, а для многих не достигаемый....

И зачем вы людям про 32b пишите, для ее запуска нужна как минимум 4090

вопрос ведь только в памяти и квантизации, у 3090 столько же памяти, то есть запускаться будет тоже.

Что касается количества параметров на 32B, то тут зависит от квантизации. Главное, чтобы лезло в память GPU (можно даже не целиком, а тройку слоёв на CPU оставить, то есть например GPU offload делать 61 из 64)). Например я так успешно запускаю в LM Studio на RTX 3090 такие варианты:
DeepSeek-R1-Distill-Qwen-32B-GGUF в квантизации Q5_K_L, которая сама весит 23.74 Гб.
или даже на 70 млрд. параметров, например
Llama-3.1-Nemotron-70B-Instruct-HF-GGUF с квантизацией IQ2_M, которая весит 24.12 Гб.

А если видеопамяти меньше, например 16 Гб, то можно запускать DeepSeek-R1-Distill-Qwen-32B-GGUF в квантизации Q3_K_M, этот вариант весит 15,94 Гб.

Если же увеличивать длину контекста, то видеопамять жрётся, так что тут нужен некий баланс между размером квантованной модели, количеством offload'а и окном контекста :)
Но "для поиграться" локально варианты есть под любую видеокарту.

Не упомянул 3090 так как она действительно может запустить 32B, но работать с ней не возможно, слишком долго ждать ответ, а когда нужно прогнать потоком то задача вообще становится не решаемой. На 4090 тоже выглядит печально, но хотя бы с болью, но пользоваться можно.

странно, но на 4060 запуская ollama 32b она кушает только оперативную память и нагружает только процессор 12500h

. никак не нагружая gpu от слова совсем...

ollama run deepseek-r1:32b.

весит при этом всего 18 гигабайт, на секундочку.

У китайцев какие то совсем свои метры/килограммы/гигабайты/ миллионы

Запустить конечно можно, а можно ли этим пользоваться? Так то у меня и 70b запускается, с частичным разделением на GPU и CPU RAM. Но пользоваться ей не возможно. Так потестить и все.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации