Comments 24
если нужна генерация изображений то есть nunchaku github который позволяет некоторые модели запускать при 3gb vram, вот недавно выпустили поддержку z-image, а старый flux-dev давно ими квантован, потерь качества почти нет, при этом и скорость значительно выше
Скрытый текст

А что на счёт apple'овских M процессоров? Имеют право на жизнь?
M2 Pro с 32 Gb RAM сейчас можно купить за 120-140 т.р. - скорость ниже, но по объёму памяти ему нет конкурентов.
Я тестировал M2 Pro но с 16 gb ram, на простых текстовых моделях
Если RTX 3090 выдает условно 60 токенов в секунду, то M2 Pro - по ощущениям 5-10
Да модель помещается, но скорость оставляет желать лучшего
нейросеть говорит что m2 pro - не альтернатива 3090. Нужно брать mac studio m4 max или m3/m4 ultra, причем с большим запасом озу - от 64гб
Мы запускали qwen для аннотации имэджевых данных на m2(а100 склеила ласты и ушла в страну вечной тренировки, а надо было здесь и сейчас) , вполне юзабельно было.
И работает и есть проблемы. Не все модели будут корректно работать если купите самый дорогой mac studio. Оставлю это https://github.com/pytorch/pytorch/issues/141287 - некоторые модели и в том числе для дообучения - будут работать через процессор, что вызывает печаль. Не стал бы на данный момент инвестировать в яблоки, если цель запускать модели и остальные вещи связанные с ML
А что на счёт apple'овских M процессоров? Имеют право на жизнь?
M2 Pro с 32 Gb RAM сейчас можно купить за 120-140 т.р. - скорость ниже, но по объёму памяти ему нет конкурентов.
У M2 Pro скорость памяти 200 гб/с, это всего в 2 раза выше чем DDR5 память, и на старых маках нет тензорных matmul ядер, они появились только в m5. Есть, например, Ryzen AI Max+ 395 (Strix Halo), продаются на озонах, там скорость памяти 256 гб/с, бывают до 128гб, но стоят дешевле маков.
Сейчас в продаже появились AMD Pro R9700 32GB за 1300 баксов, люди уже тестируют LLM, flux2, и wan2.2, 128 тензорных ядра, поддержка fp4, LLM заводятся на AMD давно без проблем, и есть официальные сборки ComfyUI на AMD. Не так быстро и удобно как CUDA, но быстрее и удобнее чем старые маки.
Ещё плюс GPU - это возможность запускать огромные MoE модели за счёт ОЗУ. Например, для запуска GPT-OSS-120B нужно 64гб RAM и немного VRAM, примерно тоже самое с видеогенератором Wan2.2, ему, помимо VRAM, нужно много RAM для быстрой работы.
Ещё есть вариант - переделанная RTX 4090 на 48Gb. По цене примерно как RTX 5090.
Подскажите профану. Если есть обычный мини пк alder n100, с 8 ГБ ОЗУ - можно ли как-то подключить видеокарту?
Да, можно. В разъём М2 для ссд. Это не имеет никакого смысла. Потому, что у Н100 очень медленная озу. Я делал эксперимент на минипк с амд 6800hs 16гб лпддр5 + внешняя видеокарта 3070м 8гб подключён на через м2 4х псие4.0. Вполне шустро и сносно работает благодаря быстрому процессору и очень быстрой озу (по тесту под 100 гб/с).
Какие ещё RTX 5070/5080 super? Как можно советовать то, что ещё не вышло.
Z-image не хватает, потрясающе быстрый и качественный вариант домашней локальной генерации, на моей старушке 2080 просто летает, лучшее соотношение скорости-качества на данный момент. С нетерпением жду edit-версию.
Судя по ценникам в магазинах, нейросетям нужна абсолютно вся ram, vram, tlc и 3dnand :)
Что тут делают несуществующие видеокарты?
Спасибо за разбор! Жаль тут и много мусора
Ну, для генерации картинок врам и гпу, имхо даже поважнее будет, чем для применений типа LLM. Поясню: когда мы пишем промпт для картинки, нам нужна обратная связь (в большинстве случаев) - что то мы упустили в промпте, может местами переставить, веса подправить, а может и моделька неподходящая. Но пока картинка вся не сгенерится - мы этого не поймем. Без ГПУ на проце это может занять минут 15-30 ожидания, за которые можно уже подзабыть - а что мы хотели то? Или наоборот, за это время накрутили совсем новый промпт, который кажется нам верхом промптинга....через следующую генерацию понимаем что это не так. Наше счастье, что генераторы картинок (точнее их модельки) не такие огромные, как LLM, поэтому можно и на не новых видеокартах работать.
LLM даже на проце без всяких ГПУ начинают выдавать токены сразу. Нууу..."почти" сразу. Тем не менее они их начинают понемножку выдавать, и буквально с самого начала становится понятно, хрень она пишет или нет. Например "Я не могу" в начале ответа может вполне быть стоп-словом, если моделька отвечает по API, и прервать дальнейшую генерацию можно в самом начале. Или какое нибудь "Извините, я...".
Или вообще говоришь ей писать на питоне а она начинает выдавать псевдокод в виде смеси Питона и Си. Потому что она насмотрелась этого псевдокода в статьях.
Вот видеогенераторы - там все настолько медленно и жруче, что даже и не поймешь. Но подозреваю что с ними все как с рисовалками картинок. Это же по сути те же рисовалки, только у них унутре уже встроены контролнеты и прочее барахло, которое призвано по сути нарисовать и чуть изменять картинку, и так тысячи раз.
rtx 5070 18gb и rtx 5080 Super 24gb - этих карт нет на данный момент- декабрь 2025.
Текст писала нейросеть, без проверки редактором..
Я использую Triton и sageattention для ускорения генерации на 4090. Но с каждым разом новые модели становятся более требовательными.
Сколько VRAM нужно для нейросетей?