tr0llcr4ck Apr 7 at 11:45

Сборка дешевого домашнего вычислительного кластера на двух процессорах и 6 «почти» RTX3080

Medium

10 min

14K

Computer hardwareServer optimization * Language localisation *

Case

+29

Comments 17

Pinned comments

tr0llcr4ck Apr 7 at 13:47

https://disk.yandex.ru/d/6KddNGv5h-GA4w Результаты бенчмарков

tr0llcr4ck Apr 7 at 13:47

https://disk.yandex.ru/d/6KddNGv5h-GA4w Результаты бенчмарков

denis_iii Apr 7 at 13:59

Проблема у всех аналогичных систем, что "жрут" в простое не мало ЭЭ. Видеодрайвер в режиме вычислений не дает уводить систему в сон хотя бы на ночь. В итоге КПД использования остается невысоким (при активной работе в пару часов). А летом – еще плюс и кондиционер, если лето жаркое. В общем, сон системе очень бы не помешал, и этот вопрос часто остается за кадром.

tr0llcr4ck Apr 7 at 14:22

в смысле за кадром? вы внимательно читали? я прямо описал как уводить систему в P8 путем снижения mem clock. потребление 10-15 ватт на карту и 15 ватт оба процессора.

tr0llcr4ck Apr 7 at 14:23

плюсом, никто не мешает сделать shutdown и wake-on-lan, если уж хочется устойчивые 0 Вт иметь и экономить 1000 рублей в месяц.

sav13 Apr 7 at 16:34

Карты вроде как "майнинговые"
Реально какие то модели LLM загружали?
Какую максимальную модель можно загрузить в такой "объединенный кластер" с приемлемым временем отклика?
Если система должна работать в умном доме, какой смысл в ручном переводе ее в пониженный режим или вообще держать выключенной? ведь в умном доме система должна быть всегда готова к выполнению команды?

tr0llcr4ck Apr 7 at 18:55

любая модель которая запускается в Ollama и vLLM нормально распределяется по картам. отклик модели qwen3.5:35b мгновенный.

Выключение и перевод P-state можно на любое действие закрепить скриптом, вплоть до восстановления автоматического ухода в P8 вне сильной активности. умному дому не надо быть всегда в режиме сверх рассуждения, да и вообще он на проце может крутиться. а модель с тобой общаться когда ты дома и когда распознавалка, например, речи скомандует перейти на усиленный режим.

LLM, нужна только для размышлений. слушать обращение от пользователя может другой сервис, который много не жрет. он и будет триггерить переход в P0. Мультимодальный Vosk например вообще на ноутбуке старом у меня жил.

это все теория. вряд ли я на практике буду связывать свой локальный УД с этим. разве что ради опытов

sav13 Apr 8 at 03:56

Ну если реализовать локального голосового ассистента, то по ключевому слову (например "Алиса") модель должна сразу выходить на максимальный уровень. Ведь она не знает, что будет дальше, голосовая команда "Включи свет", запрос в интернет "Погода и курс доллара на сегодня" или вопрос "В чем смысл жизни?".

Если при этом будет пауза с ответом больше 1-2 секунд, то такой ассистент будет раздражать.

tr0llcr4ck Apr 8 at 07:41

это все решается

разделением вопросов на заранее заданные команды, которые обрабатываются например при помощи алгоритма сопоставления гештальт-паттернов. а более сложные вопросы если вес по алгоритму достаточный не набрался- перевод в P0 (занимает меньше секунды) и потоковый вывод ответа. грубо говоря - не всем рулит нейросеть, подключаем ее только на сложных вопросах. у меня был проект локальной умной колонки с УД, которая вообще нейросети не использовала, работала на слабом железе и достаточно быстро, если интересно - покажу позже

Rezzet Apr 8 at 07:01

Сколько токенов в секунду выдает на qwen3.5:35b ?

tr0llcr4ck Apr 8 at 07:38

около 30-35

Demiurg2 9 hours ago

А какую схему параллелизма используете? TP или PP?

dsprts Apr 7 at 17:34

Купил смр50 поиграть в какие нибудь игры. Играл последний раз лет 15 назад. Никак руки не дойдут кондеры допаять

tr0llcr4ck Apr 8 at 10:10

судя по тому, что я прочитал на просторах - вам не только кондеры понадобятся, а еще и модифицированный драйвер, который включает 3D ускорение. и все таки не факт что на карте вы поиграете, неизвестно в каком состоянии блоки которые за это 3D ускорение отвечают. может как у меня окажется - в целом рабочая карта, но в определенной задаче начинает "плыть"

dsprts Apr 8 at 10:12

В моем случае ещё винда будет в проксмоксе стоять. Для винды нвме на 512. Под прокс ссд64гб

tr0llcr4ck Apr 8 at 10:54

ясно. proxmox уже за пределами моего понимания :)

defecator Apr 8 at 10:03

При полном загрузе 24/7 и стандартном тарифе на ЭЭ цена работы машины ~6500 руб

А стандартный тариф - это какой ? А то по всей России тарифы разные

tr0llcr4ck Apr 8 at 10:07

под полным загрузом я имею в виду лимит блока питания. берите 1800W и считайте исходя из вашего тарифа. обычно в задачах система потребляет 600-700W. В простое с учетом P8 около 150W. я подключил все это дело через умную розетку, она считает потребление, реальный расход с московским тарифом скину позже, если не забуду :)