Комментарии 34
Напишу в 101-й раз, может хоть кто-то обратит внимание и прочитает:
1) 8b, 14b, 32b, 70b модели DeepSeek-R1 - это не модель DeepSeek-R1, это Llama и Qwen, дистиллированные на выходах полной модели DeepSeek-R1. Те, которые в библиотеке Ollama'ы еще и квантованные под 4 bit.
2) Если бы автор использовал не RAM, a VRAM (нашел бы видеокарту на 24 Gb), то скорость генерации была бы раз в 10 быстрее (на тех моделях, которые влезают в 24 Gb)
1) Окей
2) автор указал, какую стоимость железа он хотел использовать, а также, что под рукой был вариант удобной домашней тачки которую и обкатывают, а также автор не хотел брать карту и подключать через thunderbolt и возится с настройкой eGPU :)
Просто для статистики, deepseek-r1-distill-llama-8b
(4.58GB) на Radeon RX6800XT 16GB даёт скорость в 72 токена в секунду на Vulkan бекенде. ROCm бекенд наверное был бы быстрее, но лень ставить гигабайт рантайма под него. Сопоставимая nVidia была бы ещё быстрее, раз всё нынче под CUDA изначально затачивают.
Оставлю ссылку на свой коммент по скоростям на VRAM, RAM и SSD: https://habr.com/ru/articles/879846/comments/#comment_27888470
Но это для больших моделей. Для маленьких моделей 7-8B даже на CPU/RAM (современных) нормальная скорость будет, около 10 токенов в секунду. А с VRAM будет больше, конечно.
А если нет 24Gb, но очень хочется бюджетно? Получится взять пару 4060ti на 16Gb чтобы получить 32Gb памяти или тут так совсем не работает?
Что вообще можете посоветовать из относительно бюджетного с 24Gb VRAM?
Если есть деньги на пару 4060ti, ео найдется и на БУ 3090
А вообще идите на r/localllama, там различных сборок под различные бюджеты на все случаи жизни чуть ли не ежедневно выкладываются
Кроме NVidia RTX 3090 с Авито советовать особо нечего. Ну еще Radeon 7900 XT/XTX. Но лучше всё-таки CUDA, чтобы без танцев с бубном всё заводилось.
> Получится взять пару 4060ti на 16Gb чтобы получить 32Gb памяти
Для олламы модели как правило с квантизацией ниже 8 bit , так что 32 billion parameters модель вполне влезает в 24 Gb VRAM.
Запуск моделей с разделением на 2 отдельные карты чуть сложнее, поддерживается не всеми фреймворками. Оллама на текущий момент вроде бы не поддерживает, но другие фреймворки - поддерживают. Можно поговорить об этом с DeepSeek-R1 на сайте, он расскажет много интересного на этот счёт :)
1) llama.cpp и vllm поддерживают сетапы на несколько GPU, так что 2x4060ti будет работать.
2) лучшее предложение на рынке - бу 3090. Лично я бы брал 4060ti только если планируете запускать модели в fp8, вне этого кейса 3090 будет лучше.
3) Можно посмотреть на Интел/АМД, но там не все фреймворки будут запускаться нормально. Тут лучше к пользователям этого железа.
4) Совсем упорото - Tesla p40 бу с Китая. Но вы задолбаетесь отлаживать это(никаких свежих дров нет), собирать сервер(карты без охлаждения встроенного) и т.д., так что лучше не надо
Ollama на бэкенде точно использует llama.cpp. Сам работаю с llama.cpp напрямую, у него тоже есть web интерфейс, сборку выполняю сам, но есть и бинари ( https://github.com/ggml-org/llama.cpp )
llama.cpp точно умеет работать с двумя видеокартами, но по скорости не прокомментирую. Думаю все норм будет с двумя 4060ti
Сам использую radeon 7900xtx (24Gb). Мне в эту карту влезают модели чуть большего размера (например DeepSeek-R1-Distill-Qwen-32B-Q6_K.gguf 26.9GB https://huggingface.co/bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF/tree/main). Что не влезает в память видеокарты - остается в системной RAM (просто нужно будет указать количество слоев загружаемых в видеокарту)
Ужасный способ привлечь посетителей на свой канал. Все более-менее продвинутые уже месяца два как протестировали и 32в, и 70в, благо, заграничные блогеры быстро и качественно об этом рассказали.
Да, и 700в можно попробовать на облачных серверах.
В вашей же статье нет даже команд для запуска в ollama.
Это насколько же надо не уважать своего читателя…
Автор ты знаешь что такое клик бейт?
Люди простенькие модели(0.5б-3б), либо сильно квантованные модели, запускают на телефонах. А тут целый настоящий компьютер, так что все ожидаемо
Те, кто запускают 0.5б потом громче же всех орут, что ИИ полное говно, эти ваши модели полная туфта, генерирует фигню и тд.
Под нормальную модельку и комп нужен нормальный, чудес то не бывает. Правда требования у нейронок ой какие завышенные даже по сравнению с игровыми сборками - ну такова селяви.
Шутка в том что инференс (читай генерация текста/картинки/видео/etc) достаточно дешевый по вычислениям. Проблема в том что ни один из производителей GPU/NPU не будет выпускать условную 3060Ti с 96Гб памяти, так что имеем что имеем что имеем.
А я все же надеюсь, что подобные решения появятся, и будут они скорее всего от китайцев. Накидать кучу памяти на одну плату и все как-то это свести - не видеокарту с нуля все же. Ну да, скорость памяти решает, а вот ГПУ могут быть и предыдущих поколений, для бытового и не очень применений такой скорости вполне хватает. Ну то есть если это возможно хоть в теории, если это востребовано - то это рано или поздно обязательно появится =)
Или для дешевизны можно зашить весь терабайт того дипсика в исполинское ПЗУ (привет масочные ПЗУ в тетрисах), оно все равно только читает оттуда. И будут необновляемые ии-асики.
Вчера видел скрины с Китая (+nvidia-smi) 4090 с модом на 96гб памяти, за что-то порядка 4.5к баксов продавалась)
Я думал тут сервер с GPU за 45 000$ и полноценная работа DeepSeek-R1, а не мини-пк за 45 000 рублей и обрубок от DeepSeek-R1.
Но зачем это на хабр-то?
Эдгар, спасибо большое за статью! Мне очень импонирует уклон в твоей работе в сторону практики. Спасибо, что втянул меня в мир LLM и теперь я не могу пройти мимо и тоже тестирую на досуге модели :) Конечно, ограниченность и дороговизна памяти на GPU намекает, что нужно искать решения запуска на CPU, но насколько пока лично смог убедиться - вычислительные мощности несоизмеримы. Мне наконец-то удалось нормально запустить Codestral:22b, тормозила на RTX 3060, но с 24Gb "новой" 3090 стало отлично!
На алиэкспресе можно купить 24 ядра 48 потоков и 128гб оперативки за ~30000р
Интересно а что лучше, ллама/квин со вкусом R1 или чистая мистраль такого же размера.

Можно. Купил.
потом ещё почти 7к за БП с двумя нормальными\независимыми CPU питаниями
перебор Х кулеров, чтобы они по ширине влезли на два CPU рядом
два слота памяти из 8ми битые ("у нас всё работало перед отправкой, отправляй нам в Китай назад на диагностику")
память БУшная почти вся 2133 только "на бумаге", не факт что будет работать стабильно, скорее только на 1600
раз в месяц какая-нибудь планка памяти вылетает в BSOD (на разных китайских материнках), иногда помогает просто планки вынуть-вставить, иногда только взять из ЗИПа.
Так что БУ Xeon'ы с Алика - это очень сильно на любителя. Особенно если учесть, что новая минимальная система на АМ4 с магазина выйдет не сильно дороже (однопроцессорная, разумеется)
Новое в магазине - одна только память 8х16 ddr4 выйдет под 30000 и это не серверная память с коррекцией ошибок а самый дешевый китайский хлам. А к ней еще мать нужна в которую можно столько навтыкать, это забей вообще. Минимум в 3 раза дороже получится.
А впрочем, если посчитать что райзен5 с 8 ядрами сможет заменить эти 2 зиона (сомнительно) и взять модули по 32гб памяти то можно будет и обычной мамкой обойтись, получится всего в 2 раза дороже.
Поставил LM-Studio на виртуалку.
Скачал модель DeepSeek.
Запустил сервис на порту 1234
Поднял Iis.
Grok3 мне генерировал index.html и web.config которые я положил на сервер.
Потом я попросил красиво оформить его же код.
Теперь с моим сервером удобно общаться по сети и через браузер.

Возможно, скоро мем "it runs Doom" сменится на "it runs deepseek" )
На днях запустил deepseek-r1-14b ollama на видео карте nvidia rtx3080 ti (12 Gb). Получил скорость 58-62 токена в секунду. На RAM эта же модель работает со скоростью 9-10 токенов в секунду.
А я тоже поблагодарю автора за статью. Это то что можно сделать своими руками у себя дома, и это интересно. А смотреть на комп за много тысяч долларов прикольно, но повторить ты это не сможешь
DeepSeek на железе за 45к