Запускаем LLM локально на майнинг ферме из 4 GPU / Хабр

В последнее время становится все более популярным локальный запуск LLM. У каждогг свои причины, но основные это: проблемы с западными сервисами, нестабильный интернет и утечка данных в открытый доступ (преценденты уже были).

В этой статье я расскажу как запускал LLM локально на майнинговом железе, какие тонкости есть при запуске. Расскажу архитектуру моей сборки и примерную стоимость железа. Также протестирую скорость работы с некоторыми наиболее популярными MoE LLM, включая модели от гугла и ChatGPT. По поводу целесообразности подобных сборок решение каждый примет сам исходя из своих задач и финансовых ресурсов.

На хабре уже есть несколько статей про локальный запуск LLM на сборках из нескольких GPU

Локальный ИИ: майнинг плата+ 3 RTX 3090 Тут скорость работы GPT-oss-120B около 100 токенов в секунду.
Как я собрал LLM-печку на 4 GPU и на что она способна. Тут 4 карты 3090 на игровой материнке показали 55т/сек на Qwen-35B-a3b-Q8 и 19 т/сек на Qwen 122B-Q5 при очень больших контекстах.
Темные лошадки ИИ - инференс LLM на майнинговых видеокартах Nvidia CMP40HX, CMP50HX, CMP90HX Тут cmp50hx+cmp90hx обогнали одну rtx3060 12g в инференсе gpt-oss 20b. 55т/c против 19 т/с

В этих статьях используются майнинговые GPU на игровых материнках либо игровые GPU на майнинговых материнках. Я же решил попробовать майнинговые GPU на майнинговых материнках. То есть на обычной майнинг ферме.

Перейдем к железу: у меня обычная майнинговая ферма из 2016 года. в последние 5 лет такое железо продается на барахолках по цене 10-20% от цены в 2016 году.

материнская плата:H510 Pro BTC+. Видеокарты: 3 штуки p106-100 и одна p104-100 (каждая карта по 1000-2000руб на авито). Корпус майнинговый название не помню. Процессор i3-10100 , ОЗУ 32ГБ ddr3 кажется. ssd 1tb. Колесики для корпуса из леруа. Кулеры 5 шт с ручной регулировкой частоты вращения. — *материнская плата:H510 Pro BTC*+. Видеокарты: 3 штуки p106-100 и одна p104-100 (каждая карта по 1000-2000руб на авито). Корпус майнинговый название не помню. Процессор i3-10100 , ОЗУ 32ГБ ddr3 кажется. ssd 1tb. Колесики для корпуса из леруа. Кулеры 5 шт с ручной регулировкой частоты вращения.

Порядок работы:

Установка виндовс
Установка неофициальных драйверов под видеокарты (официальных у нвидиа нет для майнинговах карт под винду)
Устанавливаем LM studio либо Kubold.ccp (старые gpu с архитектурой pascal работают чуть быстрее в Kubold, поэтому все тесты я проводил там)
Прямо в LM studio находим и скачиваем нужные LLM. Я скачал gemma-4-26B-A4B-it-QAT-GGUF в Q4 Qwen3.6-35B-A3B-GGUF тоже в Q4 и еще несколько.

Запускаем gemma 26B сначала на одной GPU p106-100 чтобы было от чего отталкиваться.

получаем 11,52 токенов в секунду. Если учитывать, что человек читает в среднем со скоростью 5-10 токенов в секунду, то этим уже можно пользоваться. Все, что ниже 10 уже кажется мучительно долго для среднего человека.

Теперь запускаем на двух GPU p106-100. Gemma 26B занимает порядка 14 гб поэтому в 2 видеокарты по 6гб она не помещается. Часть остается в ОЗУ.

получаем скорость 9,67 т/с что ниже, чем с одной видеокартой. Распределение LLM по двум GPU и ОЗУ оказалось хуже, чем распределение той же LLM между одним GPU и ОЗУ.

Запускаем на 3 p106-100. На деффолтных настройках 14 гб gemma не умешается в трех картах по 6 гб, но с ручными настройками можно уместить.

получаем 12.16 т/c если не распределить LLM по трем видеокартаи и 19,11 т/c если уместить LLM в GPU

Добавление четвертой видеокарты дает нам те же 19-20 т/с, но LLM уже по дефолту умещается в видеокарты. И контекст не нужно ограничивать, он в kubold 12000 по умолчанию.

Сначала карты работали не очень стабиньно, выдавая то 20, то 15, то 10 токенов в секунду.

на двух верхних графиках видно, что карты скидывают частоты по непонятной причине. Соответственно инференс в это время замедляется.

Пришлось жестко зафиксировать частоты карт через MSI afterburner.

это мои настройки по разгону gpu в msi afterburner

В итоге gemma26B в Q4 c нормальным контекстом 12000 выдает стабильные 19-20 т/с на четырех GPU.
Для сравнения тут запуск gemma4 26b на 4 майнинговых GPU cmp50hx через райзеры. Скорость 22т/c:( https://youtube.com/watch?v=tqaw5HJMFxU&si=lU5Rn-nQrGVvFzuY Gemma 4 26В и 31В на 2х СМР 50НХ: сколько токен/сек выжмет майнинг-карта? )
Qwen3.6-35B-A3B вQ4 выдает у меня те же 19-20 т/с c таким же контекстом.
Для сравнения: тот же qwen35b выдает 27 т/с на 3060 12 гб на дефолтных настройках LM studio. ( инфа отсюда: https://youtube.com/watch?v=QxpRuOAw-BE&si=7nQsYeg8sJtv-f96 )
MiniPC с AMD AI395+ 128гб ОЗУ с qwen35b выдает около 60 т/c
Ну и наконец тестим GPT-oss 20B: результат получился 25т/с с тем же контекстом 12288

Выводы:

Все конфигурации ферм, которые я собирал и которые видел в сети выдавали 15-20 т/с. Если Вас такая скорость устраивает-то можете пробовать запускать LLM на майнинг фермах.
Запускать маленькие модели в 20-40B параметров не имеет особого смысла на фермах. Обычные игровые ПК обеспечат скорость выше 15-20 токенов или примерно такую же.
Запуск средних моделей с более 100 млрд параметров( типа Qwen122B 75GB или gpt-oss120B 63GB) может иметь смысл на майнинг фермах. Если кто-то уже запускал-пожалуйста поделитесь результатом в комментах.