Byurrerвчера в 13:24

Локальный ИИ: майнинг плата + 3 RTX 3090

Средний

7 мин

10K

Искусственный интеллектКомпьютерное железоСтарое железо

Кейс

+25

Комментарии 23

chesser76 вчера в 13:40

Спасибо за обзор! Тоже хотел попробовать H510, но пока сижу на АМ5 сборке с двумя видяхами в обычном ATX корпусе. Большие модели конечно не влезают, но пока и так хватает.

pz_true вчера в 13:49

А насколько умнее, по вашим ощущениям, gpt-oss-120b против gpt-oss-20b ?

zartdinov вчера в 14:42

Ну вообще 5 месяцев прошло, наверное, лучше вместо нее уже gemma4 штуки 3 поднять (20gb вместо 64gb), каждая мощнее в теории:
https://benchlm.ai/compare/gemma-4-31b-vs-gpt-oss-120b

Вообще не особо интересуюсь этими моделями, но много интересных выходило (GLM, Qwen и тд.). Не очень понимаю интереса в этом gpt-oss, его же на коленке собрали ради маркетинга еще давно.

Byurrer вчера в 16:26

Значительно умнее, как минимум она содержит в 6 раз больше информации внутри себя. Это как словарный запас у человека, чем больше тем интереснее речь.

MxMaks вчера в 13:50

Эти майнерские материнские платы сами по себе крайне слабы. Майнинг и инференс сильно отличаются по обмену данными через плату. Такие платы угробят все преимущества от карт. Лучше норм плату с несколькими 16х слотами и в двухэтажном корпусе соединять с картой через райзер.

Byurrer вчера в 14:31

Вся переферия через DMI идет со скоростью PCI 3.0 x4. Сколько нужно пропускной способности чтобы не гробить преимущества карт?

sintech вчера в 13:59

Для тех кто застал в компьютерах настоящий https://ru.wikipedia.org/wiki/PCI, использование сокращения PCI вместо PCIe вызывает некий диссонанс.

gordeylobanov248 вчера в 14:28

Судя по вентиляторам это шумит как вертолет. А если нет, то в корпусе скорее всего печка

Byurrer вчера в 14:29

Не шумит и не печка, там же реобас стоит, которым можно регулировать скорость вращения. Один раз выставил нужный чтобы обдувал и не громко.

Triton5 вчера в 14:35

gpt-oss-120b это довольно-таки слабая модель при большом размере, более современные модели заметно интереснее:)

Облачный ИИ намного сильнее и умнее, но как же оно жрёт токены...))

Byurrer вчера в 16:20

Какие модели порекомендуете взамен gpt-oss-120b? Желательно чтобы в 72гб видеопамяти умещались.

Я тестировал glm-4.7-flash но она на первом же промпте (речь была про формулы prometheus) проиграла, а gpt-oss-120b на тот же самый промпт выдала верный результат. Хотя в размышлениях glm-4.7-flash более активна чем gpt-oss-120b.

Дипсики дистилированные тоже сходу проигрывали на мои запросы из рабочих задач.

morginalium 23 часа назад

выше уже писали, но продублирую - gemma4 (вышла пары дней назад) и qwen3.5 - обе быстрые, обе супер-умные.

Triton5 16 часов назад

в общем и целом - поновее:)

melodictsk вчера в 15:36

Т. К. 3090 имеет на борту псие 4.0, то и мать надо выбирать соответствующую. Потребительские матери, где на борту есть полноценный 16х 4.0 и пара 4х 4.0 м2 вполне вывезут на полной скорости ллм. Естественно озу надо побыстрее, может так получиться, что моделька не влезет в видеокарты, хоть проц возьмёт на себя часть нагрузки. На сетевую нет смысла заморачиваться, достаточно использовать свисток в усб3, там хоть 2, 5 хоть 5гбит сети есть недорого, а усб в современных процессорах напрямую в процессор. Ссд засунуть в пси 1х. А ещё есть сплитеры и 16х можно попилить.

Мамки на эпиках киллерфича. Если есть, брать их.

badsynt вчера в 15:52

gpt-oss-120b - очень хорошая модель, особенно для умных математических вопросов. У меня она работает на одной RTX 3060 12GB со скоростью 6 токенов в секунду. Учитывая, что она думает перед этим, то получается не быстро, но вполне терпимо. Свежеиспеченная Gemma 4 26B A4B по бенчмаркам (за исключением математических вопросов) даже лучше и выдает 15 токенов/сек. Тенденция намечается такая, что для инференса видеокарты будут не особо нужны. Так что лучше положить глаз на что-то вроде Asus Pro WS WRX90E-SAGE SE с восьмиканальной памятью. Цены и сейчас не астрономические, а когда это все перейдет в категорию б/у (и DDR5 подешевеет ;) , глядишь и норм будет. Но это будет универсальная тачка, а не чудо в перьях. Если Эпики подешевеют быстрее Рипперов то да, и на них можно смотреть.

Byurrer вчера в 16:24

Один подписчик с тг приходил за настройкой сервера на Threadripper. Мы протестировали и оказалось что gpt-oss-120b выдает скорость 20т/с на CPU, а при задействоании 48гб VRAM все 40т/с. Мне самому стало интересно я купил себе Threadripper для тестов, но еще не добрался.

Ivan_shev 15 часов назад

Тоже была идея попробовать запустить LLM на материнке от майнера, но денег нет, и в делах таких я не силен. Хорошо что не стал это делать, спасибо за статью.

Mintavrus 8 часов назад

Gpt-oss-120 уже устаревшая модель и уступает в качестве генерации новым моделям типа Qwen3.5 27b и Gemma4 31b, которые занимают в несколько раз меньше памяти. Я запускаю эти модели на двух rtx3090 в квантовании Q6 с помощью llama.cpp, с контекстом 256k, kv-кэш f16. Веса с кэшем контекста как раз аккурат вмещается в 48 гигабайт VRAM. Скорость генерации ~30 токен/сек (промпт ~1500 токен/сек). При контексте >150k скорость ~23 токен/сек. Результатами доволен. Загрузка моделей с nvme накопителя за 10 секунд максимум.

P.S. использую серверную двухпроцессорную материнку Supermicro X11DPI-NT, ее большой плюс что на втором CPU висят 3 полноразмерных слота PCI 3.0 x16, на которые можно повесить 3 видеокарты и практически нивелировать потери скорости

VO_Obsidian 8 часов назад

А в чем смысл трех видеокарт если между ними пропускная способность ограничена PCIe 3.0 x4? Если гонять 3 отдельных агента, чтоб каждая модель влезала целиком в одну видеокарту - ну да, но распределенный инференс не получиться нормально, половина слоёв на одной видеокарте, половина на другой, между видеокартами надо гонять результаты вычисления. gpt oss это MoE, так что может тут не так сильно падает производительность, но для плотных моделей это точно будет серьёзным боттлнеком.

Mintavrus 4 часа назад

Последние версии llama.cpp на новых плотных моделях Gemma4 31b и Qwen3.5 27b отлично распараллеливают слои по видеокартам. Производительность в токенах не падает (но и не растет естественно), но зато VRAM удваивается и можно загружать более тяжёлые модели или использовать больший размер контекста. Например, Qwen3.5 27b q6_k весит 22,5 ГБ. Ее можно запустить за одной RTX3090 и получить 25-30 токен/сек. Но с маленьким контекстом в несколько тысяч токенов, дальше уже не хватает видеопамяти. На двух 3090 эту же модель можно запустить уже с максимальным контекстом в 256 тысяч токенов и получить теже 30 токенов/сек. А с большим размером контекста уже можно делать реальные вещи: скармливать модели портянки на 8000 строк кода, подключать инструменты вроде Context7 и одновременно давать например файл с документацией по API какого либо сервиса - и после этого ставить задачу, например оптимизации кода, добавлению в код новых функций по взаимодействию с сервисом и т.д. Код, документация и инструменты сразу отжимают больше 100 тысяч токенов, но при этом модель продолжает нормально и быстро работать. Оставшихся 150 тыс хватает чтобы выполнить задачу, провести тестирование , выявить ошибки. Использование второй видеокарты просто кардинально и принципиально меняет дело. Я никогда не занимался программированием, но уже столько всего для своего умного дома на создавал с помощью такого вайбкодинга

Byurrer 1 час назад

Даже не x4, а x1. Но это не мешает инференсу, потому что –split-mode layer

Corsair_NCH 1 час назад

Подскажите какую модель попробывать у меня остались такие железки: 2 Epyc 7502, 224гб озу есс ddr4, видеокарты есть 3070м 8гб, cmp 50нх.

Byurrer 1 час назад

Эта статья должна тебе помочь понять как более эффективно запускать большие модели на твоем железе: https://habr.com/ru/articles/961478/

Зарегистрируйтесь на Хабре, чтобы оставить комментарий