yar333329 июн в 18:06

Дело на вечер: собираем домашний ИИ-сервер

Простой

2 мин

19K

ВидеокартыИскусственный интеллектКомпьютерное железо

+17

Комментарии 56

GoogleResearch 29 июн в 18:15

Можно влезть в около 20к. Люди за копейки сдают видеокарты с процессором и памятью, и я сам занимаюсь этим: около 10 рублей в час. Если это реально востребовано, то переход на частные сервера — это логичный следующий шаг, но это менее востребовано, чем расширение функций ИИ

Void-Cowboy 29 июн в 18:23

все жду когда появятся или нормальные мануалы для "готовки" промышленных fpga под нейронки (вшивание весов на уровне fpga-логики) или нормальные процессоры по типу епеловских где все есть один процессор на одной оперативке

видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год

firegurafiku 29 июн в 21:29

вшивание весов на уровне fpga-логики

Не очень представляю, чтобы это сработало. У моделей миллиарды параметров, у ПЛИС — хорошо если сотни тысяч LUT’ов. Даже если на кодирование каждого бита весов модели в среднем уйдёт всего лишь один лут, арифметика никак не сходится. К тому же, большие ПЛИС стоят ужасно дорого, будет дешевле видеокартами закупиться.

Куда реалистичнее другой подход: реализовать на ПЛИС базовые операции инференса и прогонять через них данные из памяти в память, как это и делают видеокарты, но и тут есть проблемы:

ПЛИС, способные работать с DDR5, прям недешёвые, а по DDR3 много данных не нагоняешь,
ширина шины памяти тоже ограничена кремнием, хорошо если наберётся подходящих пинов на 256 бит данных (а скорей на 128).

Void-Cowboy 29 июн в 21:36

ну да, я где-то это и имел в виду

серверные FPGA-лезвия имеют слоты под оперативку и внутренний жесткий диск с простой ос что загружает в память при старте если нужно

но там каждое первое лезвие закрытое, документацию хрен достанешь и стоит как раз столько же

но есть рынок списанных (под биткоины в основном) а потому возможно когда-то. Главное что если выстрелит то быстро появится дешевле, спрос рождает предложение, а серверные fpga такие дорогие потому что узкая и чрезвычайно денежная ниша

JerryI 30 июн в 08:10

Поддерживаю!

ПЛИС это логичный шаг, но просто нет таких плисин в размерах подходящих под нормальную сеть в рознице. Если вместо ЛЕ брать интерфейс к ddr памяти, то мы возвращаемся к архитектуре типа видеокарты. Тогда дешевле ее и взять

izogfif 29 июн в 21:56

видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год

Учитывая, какой нынче спрос (свободный GPU за вменяемую цену в дата-цантрах днем с огнем не сыщешь), а также то, что выпуск потребительских RTX 6090 Ti Super++ откладывается уже чуть ли не на 2028-й, купленные видяхи проживут несколько лет.

savostin 29 июн в 18:42

Тоже считал-считал и выходит, что это по стоимости равно 2 годам подписки макс. Не считая электричества. И мороки. Не сошлась у меня экономика.

Ну ее, эту приватность.

KoIIIeY 30 июн в 05:01

Я купил fevm faex 9, минипк на амд райзен 395.

Цена вопроса около 250, 128гб озу, для одного хорошо работает.

Сейчас сижу на дипсик 4 флэш в 2q и оно работает! Не тупит, кодит хорошо (через opencode).

14 токенов в сек, но для личного использования вполне.

4external 30 июн в 06:04

а доступность?

savostin 30 июн в 06:06

Я нахожусь с другой стороны файрвола. Но думаю полно всякий сервисов по улучшению доступности.

4external 30 июн в 19:29

это пока белый список не включился.

ViskasSP1vom 30 июн в 13:37

Локальный сервер окупается, если на нем крутятся агентные системы, делающие тысячи запросов в день. Подписки на API с такими лимитами стоят как крыло от самолета

4external 30 июн в 19:29

я сторонник локальных БЯМ, но этот твит дал почву для размышлений.

https://x.com/mweinbach/status/2068459318240837946

ampir-nn 29 июн в 18:56

Можно влезть в бюджет и до 40 000 руб - 4 штуки P102-100 в общем 40Гб VRAM. Для комфортного использования 32B моделей хватает (20-50 ток сек с контекстом 100K). Если интересно могу написать как как это сделать. Использую llama.cpp, для некоторых задач адаптировал vllm под sm_61 Paskal https://github.com/ampir-nn/vllm-pascal

Arioch 29 июн в 21:55

хммм... Раньше Tesla V100 рекомендовали покупать, особенно в SXM (карты 2017 года). Но говорят, что две проблемы
1. они вслед за актуальными картами подорожали, особенно с 32ГБ, но и 16 ГБ тоже, якобы 25-75 тысяч за штуку (плюс обвязка на SXM)
2. они не поддерживают каких-то новомодных форматов типа fp4 и новые модели всё чае и чаще на них не работают. Не напрямую, а просто расходятся минимальная версия CUDA для модели и максимальная для процессора.

...но зато если заработало, то там HBM2, а если ещё и быстрый мост или лучше 32 на одной - то просто рвёт все консьюмерские.

Цена на P102 в 5 тысяч это, конечно, соблазнительно (или это уже скам?). Но там хоть NVLink есть? Как-то скорость памяти вызывает сомнения, да еще на 4 картах через PCI Ex x4, ведь вроде бы она важнее всего в инференсе?

Dreams_and_magic 30 июн в 01:26

аренда v100 стоит 2 цента в час

Jutqe 30 июн в 06:14

от 20 центов уже. Подскажите, где 2 цента?

VO_Obsidian 30 июн в 11:29

FP4 и даже BF16 вообще никакой роли не играют для моделей в квантах. По ценам 32 сейчас на али с pcie адаптером 50-60к. Там больше проблема в том что не поддерживаются штуки типа flash attention, их конечно портировали умельцы, но это значит нужно использовать форки движков для инференса, возможно навайбкоженные.

max9 29 июн в 19:13

ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС

нет никаких "серверных" линуксов. можно взять kubuntu и одним кликом поставить ее как с кедами, так и без.

и да, GUI там никуда не уперся, будет просто так жрать оперативку, все настраивается и из ссш

inklesspen 30 июн в 05:11

Я думаю, вы просто не видели эту разницу. Как минимум, на северных линуксах квант времени выделяется побольше раза в 3, чтобы было меньше переключений контекста.

max9 30 июн в 06:07

если очень хочется поиграться шедалером это можно сделать на любом линусе, все ядра собираются одинаково в линейках убунты, там даже репы одни и те же

ViskasSP1vom 30 июн в 13:41

Терминал и ssh лучшие друзья для таких сборок. Если так нужен мониторинг лучше поставить нормальную веб-панель вроде Proxmox или Portainer

yar3333 30 июн в 16:55

Да, Portainer стоит. Просто GUI порой удобнее чтобы делать настройку в более привычном окружении + экспериментировать на том же LM Studio с моделями куда удобнее, чем постоянно править какие-нибудь конфиги вручную.

badsynt 29 июн в 19:14

Очень много статей и каналов в телеграме на эту тему.

Что-то мне кажется, что кому-то очень хочется сбыть задорого стремительно устаревающие карточки типа V100 и иже с ними... Возможно этот кто-то где-то в Китае...

mazdai19 30 июн в 07:40

Ну это интересно. Другой вопрос, что сейчас эти серверы будут золотые.

pon007 29 июн в 19:15

Я квен 35b ,правда квантованную с "турбоквантом" запустил на nvidia 4070 - комп брал б.у. за сотку. Мне для вайбкодинга "для себя" хватает. Глючит редко.

slabnoff 29 июн в 20:08

Это в варианте cpu-moe? Я проходил такое. Правда 5060 ти 16 гб. Очень большой ttft (время первого токена) при неплохой скорости генерации. На opencode при работе с многофайловым средним проектом можно было успеть кофе попить. Докинул tesla t10 pg150 16gb (2080ti, ужатый по tdp, шине памяти, но с 16 гб). Намного комфортнее стало. Раз в 10 быстрее. Бюджет 25 тыр: 22 видеокарта, 3 тыр охлаждение от 2080ти.

vazir 29 июн в 19:40

А раму где такую взял? Ссылку можно?

yar3333 29 июн в 19:46

Брал на озоне, но там они закончились. Искать по "Корпус Dr.Miner". Конкретно у меня на 6 видеокарт, но реально скорее на 5.

izogfif 29 июн в 22:15

В него 6 карточек с четырехслотовым охлаждением поместится?

yar3333 30 июн в 04:26

Вряд ли... Входит максимум 6 двухслотовых видеокарт с промежутками по ~3 см между ними.

TheSima 29 июн в 20:02

~30 токенов в секунду

Маловато как-то для Qwen3.6 на таком железе, нет ли проблемы со сплитом pci-e? Или рейзеры скорость понижают, скорость режется?
У меня на Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf ~67-70 t/s в MTP на видяшке с пропускной способностью 1,02 TB/s.
RX7900 XTX пропускная способность вроде не на много меньше 960,0 GB/s

punzik 29 июн в 20:21

Qwen3.6-35B-A3B - это MoE модель (3B активных параметра), а Qwen3.6-27b - плотная (27B активных), потому разница в скорости. Но плотная заметно умнее. Автору рекомендую обновить llama.cpp до самой свежей версии, не исключено что скорость генерации повысится. У меня на 2х3090 плотный Квен (Q6) даёт до 60 ток/с, а MoE - до 140.

TheSima 30 июн в 06:38

Расскажи пожалуйста, "до 140" это на этой Qwen3.6-35B-A3B моделе, с MTP? или без? Таких цифр не видел на таком количестве слоёв

punzik 30 июн в 07:46

Таких цифр не видел на таком количестве слоёв

Вчера обновил llama.cpp до версии 9837, стало ещё быстрее. Вот параметры запуска модели:

CUDA_VISIBLE_DEVICES=0,1 llama-server --host 0.0.0.0 --port 8081 -m Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf -fitt 1024 -c 262144 -ngl 999 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --no-mmap --spec-type draft-mtp --spec-draft-n-max 4

Вот лог со скоростью вывода (в основном это генерация кода, она на MTP немного быстрее, чем просто текст):

0.57.525.739 I slot print_timing: id  3 | task 0 | n_decoded =    464, tg = 154.33 t/s, tg_3s = 154.31 t/s
1.00.547.542 I slot print_timing: id  3 | task 0 | n_decoded =    945, tg = 156.76 t/s, tg_3s = 159.18 t/s
1.03.564.859 I slot print_timing: id  3 | task 0 | n_decoded =   1469, tg = 162.40 t/s, tg_3s = 173.66 t/s
1.06.568.765 I slot print_timing: id  3 | task 0 | n_decoded =   2013, tg = 167.06 t/s, tg_3s = 181.10 t/s
1.09.573.904 I slot print_timing: id  3 | task 0 | n_decoded =   2425, tg = 161.08 t/s, tg_3s = 137.10 t/s
1.12.586.396 I slot print_timing: id  3 | task 0 | n_decoded =   2817, tg = 155.92 t/s, tg_3s = 130.12 t/s
1.15.589.639 I slot print_timing: id  3 | task 0 | n_decoded =   3262, tg = 154.81 t/s, tg_3s = 148.17 t/s
1.18.591.986 I slot print_timing: id  3 | task 0 | n_decoded =   3639, tg = 151.17 t/s, tg_3s = 125.57 t/s

Карты - обычные 3090 с максимальной мощностью 350Вт, включены в плату MACHINIST X99 MR9S с процессором Xeon E5-2697 v4 и 64Г оперативы.

Damnt 30 июн в 09:01

А из-за MTP нет проблем с постоянной потерей кэша контекста "erased invalidated context checkpoint"?

punzik 30 июн в 09:58

Такое было, но не из-за MTP. Лечится опцией --chat-template-kwargs '{"preserve_thinking": "True"}'. В новой версии llama.cpp появилась опция --reasoning-preserve, но я ещё не проверял.

yar3333 30 июн в 17:02

Не забывайте, что чем больше модель (и соответственно, больше видеокарт) - тем медленнее всё работает для типового домашнего случая, когда модель режется по слоям (и работает на GPU последовательно). Скорость будет сохраняться только если иметь физически очень быструю шину (т.е. либо все GPU на pcie x16, либо имеют свой собственный физический интерфейс обмена данными) и включить тензорный параллелизм. А без серверного железа оно не имеет смысла.

vazir 29 июн в 20:24

А почему АМД? 3090 не сильно вроде дороже но сильно проще в эксплуатации

yar3333 30 июн в 17:04

Изначально (пару лет назад) купил в магазине RX 7900 XTX. Так что выбор был - либо продавать и закупаться 3090, либо докупать ещё AMD :)

Areso 29 июн в 20:43

Macbook M1 Max 64 GB - и стоило чуть дешевле, и производительность чуть выше.

выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).

А вот тут у меня было жесткое разочарование. В режиме чат-бота все ок, в режиме AI-assisted кодинга в IDE - уже нет. Системный промпт + проект, префилл занимает от 5 до 10 минут на копеечную правку.

wisprp 30 июн в 07:18

Кеш очень сильно помогает. С первым запросом приходится в любом случае подождать, но потом достаточно шустро работает.

Посмотрел локальную статистику за все время - M2 MAX c oMLX выдает 51.1 tok/s генерации на Qwen3.6-35B-A3B-mxfp4 и 12.1 tok/s на Qwen3.6-27B-mxfp4 при эффективности кеша ~85%

Греется все это, конечно, знатно.

serg12345678 30 июн в 02:40

игрушки для богатеньких

Tetragramaton 30 июн в 05:41

я бы советовал смотреть в сторону blackhole tensorent - если хочется дешевле и мощнее. но подписка сейчас дает доступ к лучшим моделям и весьма дешево.

SurMaster 30 июн в 05:47

на кой гуй на серверном лине я так и не понял. простите

mazdai19 30 июн в 07:39

Покуражиться!

SurMaster 30 июн в 10:04

а месье знает толк в извращениях! ))

melodictsk 30 июн в 10:13

Есть же проверенные ступеньки локального ии. Самый дешёвый вариант это 1) 3070м 16гб (500гб/с). Суете в систему, сколько сможете, цена 20-25тр. Очень экономичные. 2) 3090 24гб (1000 гб/с), по скорости в 2 раза быстрее и есть nvlink (для инференса не нужен). 3) 5090 32гб (1600 гб/с) суперскорость. 4) 4090 48гб (1100гб/с) и скорость высокая и памяти вагон. Если планируется ставить 3+ видеокарты, то это однозначно тредрипер или зеон. Всякие в100 и прочие амд это мусор, не тратьте деньги и время. Эпл и амд 395 тоже мимо, сильно медленно и дорого. Можете на придумывать себе другие варианты, но все они будут или дороже или медленнее.

yamifa_1234 30 июн в 11:11

qwen3.6-27b в квантовании Q8 с контекстом в 250 тыс.

Для этой модели мне кажется двух видеокарт по 24гб за глаза должно хватать. И скорость тоже должна быть приемлемой. А в таком большом контексте она не путается?

yar3333 30 июн в 17:08

Да, было изначально две GPU по 24 Гб, но контекст приходилось резать до 100-150 тыс. токенов. Сейчас, с 4 GPU, память загружена на ~65% при 250 тыс. Так что будем считать, что есть запас на вырост :)
Путается ли? Пока не замечал, но стараюсь сильно не перегружать контекст без необходимости.

VO_Obsidian 30 июн в 11:44

Блин, это пока самая low effort статья про домашний "суперкомпьютер". Типа надо купить проц, мать и память, хотя бы 64 гига - отлично, замечательно, ладно точные модели но можно было хотя бы примерно сказать о какой платформе идет речь? Десктоп? HEDT/Рабочая станция? Б/У серверное?

Если брать серверное, то найти плату с 4, а иногда более, x16 разъемами не такое сложное дело. Это намного лучше чем страдать с райзерами и бифуркацией.

По поводу дисков, мое мнение, но если человек собирает такое, то у него наверняка дома где-то уже стоит NAS на пару (десятков) ТБ, хватит одного или двух SSD под систему.

Брать видеокарты AMD под вычисления - осуждаю. LLM на них гоняться то будет, но запускать любые другие HPC вычисления - много боли.

yar3333 1 июл в 08:58

Платформа - обычное домашнее железо, в моём случае - материнка под сокет AM4 + DDR4 и соответствующий проц на 8 ядер (можно меньше, не критично).

ViskasSP1vom 30 июн в 13:32

Аренда облачных GPU пока обходится дешевле если не гонять модели 24/7

AlexDrugs 1 июл в 08:56

Сижу на локалке Ubuntu с ии агентом бесплатно, железо около 30к ₽

greenrus 1 июл в 20:38

Вопрос, насколько реально полезна 27b модель в реальных задачах. В сравнении например с deepseek v4 flash который почти безлимитный в подписке opencode go или ollama cloud, и есть много других провайдеров, в том числе кто хостит модели в РФ

yar3333 2 июл в 14:26

Сравнить объективно трудно. Могу сказать, что на глаз я не отличаю qwen3.6-27b от gemini flash lite. На практике мне хватает для типовых задач вайбкодинга.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий