Комментарии 23
Спасибо за обзор! Тоже хотел попробовать H510, но пока сижу на АМ5 сборке с двумя видяхами в обычном ATX корпусе. Большие модели конечно не влезают, но пока и так хватает.
А насколько умнее, по вашим ощущениям, gpt-oss-120b против gpt-oss-20b ?
Ну вообще 5 месяцев прошло, наверное, лучше вместо нее уже gemma4 штуки 3 поднять (20gb вместо 64gb), каждая мощнее в теории:
https://benchlm.ai/compare/gemma-4-31b-vs-gpt-oss-120b
Вообще не особо интересуюсь этими моделями, но много интересных выходило (GLM, Qwen и тд.). Не очень понимаю интереса в этом gpt-oss, его же на коленке собрали ради маркетинга еще давно.
Значительно умнее, как минимум она содержит в 6 раз больше информации внутри себя. Это как словарный запас у человека, чем больше тем интереснее речь.
Эти майнерские материнские платы сами по себе крайне слабы. Майнинг и инференс сильно отличаются по обмену данными через плату. Такие платы угробят все преимущества от карт. Лучше норм плату с несколькими 16х слотами и в двухэтажном корпусе соединять с картой через райзер.
Для тех кто застал в компьютерах настоящий https://ru.wikipedia.org/wiki/PCI, использование сокращения PCI вместо PCIe вызывает некий диссонанс.
Судя по вентиляторам это шумит как вертолет. А если нет, то в корпусе скорее всего печка
gpt-oss-120b это довольно-таки слабая модель при большом размере, более современные модели заметно интереснее:)
Облачный ИИ намного сильнее и умнее, но как же оно жрёт токены...))
Какие модели порекомендуете взамен gpt-oss-120b? Желательно чтобы в 72гб видеопамяти умещались.
Я тестировал glm-4.7-flash но она на первом же промпте (речь была про формулы prometheus) проиграла, а gpt-oss-120b на тот же самый промпт выдала верный результат. Хотя в размышлениях glm-4.7-flash более активна чем gpt-oss-120b.
Дипсики дистилированные тоже сходу проигрывали на мои запросы из рабочих задач.
Т. К. 3090 имеет на борту псие 4.0, то и мать надо выбирать соответствующую. Потребительские матери, где на борту есть полноценный 16х 4.0 и пара 4х 4.0 м2 вполне вывезут на полной скорости ллм. Естественно озу надо побыстрее, может так получиться, что моделька не влезет в видеокарты, хоть проц возьмёт на себя часть нагрузки. На сетевую нет смысла заморачиваться, достаточно использовать свисток в усб3, там хоть 2, 5 хоть 5гбит сети есть недорого, а усб в современных процессорах напрямую в процессор. Ссд засунуть в пси 1х. А ещё есть сплитеры и 16х можно попилить.
Мамки на эпиках киллерфича. Если есть, брать их.
gpt-oss-120b - очень хорошая модель, особенно для умных математических вопросов. У меня она работает на одной RTX 3060 12GB со скоростью 6 токенов в секунду. Учитывая, что она думает перед этим, то получается не быстро, но вполне терпимо. Свежеиспеченная Gemma 4 26B A4B по бенчмаркам (за исключением математических вопросов) даже лучше и выдает 15 токенов/сек. Тенденция намечается такая, что для инференса видеокарты будут не особо нужны. Так что лучше положить глаз на что-то вроде Asus Pro WS WRX90E-SAGE SE с восьмиканальной памятью. Цены и сейчас не астрономические, а когда это все перейдет в категорию б/у (и DDR5 подешевеет ;) , глядишь и норм будет. Но это будет универсальная тачка, а не чудо в перьях. Если Эпики подешевеют быстрее Рипперов то да, и на них можно смотреть.
Тоже была идея попробовать запустить LLM на материнке от майнера, но денег нет, и в делах таких я не силен. Хорошо что не стал это делать, спасибо за статью.
Gpt-oss-120 уже устаревшая модель и уступает в качестве генерации новым моделям типа Qwen3.5 27b и Gemma4 31b, которые занимают в несколько раз меньше памяти. Я запускаю эти модели на двух rtx3090 в квантовании Q6 с помощью llama.cpp, с контекстом 256k, kv-кэш f16. Веса с кэшем контекста как раз аккурат вмещается в 48 гигабайт VRAM. Скорость генерации ~30 токен/сек (промпт ~1500 токен/сек). При контексте >150k скорость ~23 токен/сек. Результатами доволен. Загрузка моделей с nvme накопителя за 10 секунд максимум.
P.S. использую серверную двухпроцессорную материнку Supermicro X11DPI-NT, ее большой плюс что на втором CPU висят 3 полноразмерных слота PCI 3.0 x16, на которые можно повесить 3 видеокарты и практически нивелировать потери скорости
А в чем смысл трех видеокарт если между ними пропускная способность ограничена PCIe 3.0 x4? Если гонять 3 отдельных агента, чтоб каждая модель влезала целиком в одну видеокарту - ну да, но распределенный инференс не получиться нормально, половина слоёв на одной видеокарте, половина на другой, между видеокартами надо гонять результаты вычисления. gpt oss это MoE, так что может тут не так сильно падает производительность, но для плотных моделей это точно будет серьёзным боттлнеком.
Последние версии llama.cpp на новых плотных моделях Gemma4 31b и Qwen3.5 27b отлично распараллеливают слои по видеокартам. Производительность в токенах не падает (но и не растет естественно), но зато VRAM удваивается и можно загружать более тяжёлые модели или использовать больший размер контекста. Например, Qwen3.5 27b q6_k весит 22,5 ГБ. Ее можно запустить за одной RTX3090 и получить 25-30 токен/сек. Но с маленьким контекстом в несколько тысяч токенов, дальше уже не хватает видеопамяти. На двух 3090 эту же модель можно запустить уже с максимальным контекстом в 256 тысяч токенов и получить теже 30 токенов/сек. А с большим размером контекста уже можно делать реальные вещи: скармливать модели портянки на 8000 строк кода, подключать инструменты вроде Context7 и одновременно давать например файл с документацией по API какого либо сервиса - и после этого ставить задачу, например оптимизации кода, добавлению в код новых функций по взаимодействию с сервисом и т.д. Код, документация и инструменты сразу отжимают больше 100 тысяч токенов, но при этом модель продолжает нормально и быстро работать. Оставшихся 150 тыс хватает чтобы выполнить задачу, провести тестирование , выявить ошибки. Использование второй видеокарты просто кардинально и принципиально меняет дело. Я никогда не занимался программированием, но уже столько всего для своего умного дома на создавал с помощью такого вайбкодинга
Даже не x4, а x1. Но это не мешает инференсу, потому что –split-mode layer
Подскажите какую модель попробывать у меня остались такие железки: 2 Epyc 7502, 224гб озу есс ddr4, видеокарты есть 3070м 8гб, cmp 50нх.
Эта статья должна тебе помочь понять как более эффективно запускать большие модели на твоем железе: https://habr.com/ru/articles/961478/

Локальный ИИ: майнинг плата + 3 RTX 3090