Comments 26
del
А так у меня то же есть такой сервер, даже круче и то же за 0 рублей, я просто поставил ComfyUI и моя RTX 4090 отлично работает на генерацию картинок и обучение LoRa с Flux-Dev, процессор Ryzen 5950х отлично справляется с нагрузкой, а 128Gb памяти позволяют держать крупную модель в памяти и продолжать работать с другими задачами такими как компиляция, всем рекомендую такой продукшен реди воркстейшен за ноль рублей. Ах да забыл что у меня еще два SSD формата M2( на 1 ТБ и 2ТБ), а так же 16ТБ жесткий диск для постоянного хранения файлов. И главное все за нуль рублей, и 10 минут работы, именно столько устанавливается ComfyUI на моем гигабитном интернете(а че бы еще этим не похвастаться). Забыл добавить что это еще мощный продукт реди воркстейшен интерпрайз грейд левел для работы с LLM, и главное за нуль рублей, ведь установка LMStudio и ollama ничего не стоит.
С ollama я тоже перед этим развлекался, но это немного другое
Вы не поняли, что иронизирую над вашей статьей потому что ее ценность около нулевая и если ее сократить, то можно уложится примерно в одну фразу "я взял неплохое железо пятилетней давности и развернул на нем немного софта из репозитория".
А Вы взяли на себя смелость и вынесли суждение за всю аудиторию о нулевой ценности материала или это лично Ваше оценочное суждение? Если персонально Ваше, так зачем читаете и пишите?
Да он прав, ценность статьи и правда нулевая. 512х512 за 40 секунд говорите? Нет, ну если железо скажем так, нашли на помойке - то вполне неплохо. Но ведь это не так ведь? Когда-то вы его купили, возможно даже за оверпрайс из-за майнеров. Сейчас для нейросеток это почитай, калькулятор. Запустится и даже будет работать, но смысла мало. Есть 3060, которая 1024х1024 за 15 сек делает, гоняет LLM, да у ней нет NVLINK, но его почти нигде нет. Но ее можно купить не из под майнеров. Есть 3090, тоже очень хорошая но в три раза дороже. Есть 4090, дороже уже в 10 раз. И так далее. А да, я забыл про материнку, которая может быть хоть и китайской но стоить вполне себе нехило.
И да, это все совсем не 0 рублей, а иногда 10 ЗП если такой комп собирать с нуля - памяти навалить, потоков у проца...блок питания этого дела всего.... Хайпуете, короче. И говорите неправду.
128gb - 4 планки?
Да, по 32Гб. Сам был удивлен, но на АМ4 платах, даже на старых чипсетах с новым процессором лимит памяти становится больше чем заявлено в ее спеках и когда появились DDR4 планки по 32Гб, оказалось что их можно поставить в мать на х470 и все завелось. Наверно х470 не самый старый, но у материнке на сайте производителе максимальный размер памяти указан 64Гб.
За 100 рублей видимо будет уже H200!
Как то так наверное да
RTX 1060 — это действительно прошлый век для ML:
Нет поддержки NVLINK (не синхронизируются две карты)
Было бы смешно, если бы не было так грустно. У Nvidia даже современная флагманская 5090 за 2000 Евро идет без NVLINK
Они спецом убрали нвлинк в бытовых картах, типа "покупайте h100". Немного напоминает ситуацию из 2000 про Sound Blaster Live! - карта вышла настолько крута, что использовалась даже на профессиональных студиях, а "проф" карточки в продажах сильно просели. Ну и все, перестали ее выпускать. С такими возможностями за такую цену ломается маркетинг, у нвидии похожее, они вроде даже и не скрывают это.
Тоже на этом месте остановился, чтобы пожелать автору использовать llm при написании статей как-нибудь по-другому.
Лучше не отключать встроенный iGPU в процессоре, а наоборот – сделать его устройством вывода по-умолчанию в биос. Windows будет отъедать память на основном видеоадаптере под свои нужды, независимо подключаете вы монитор или нет, отнимая ее у моделей. А контролировать запуск моделей на определенных GPU можно - или через переменные среды или через параметры запуска.
Также стоит сказать, что возможна работа в WSL2 и Linux через специальные драйверы предоставляемые Nvidia.
а можно аналогичную статью, только для текстовых моделей?
А какая разница, если все заработало на уровне драйверов?
Автор правда упустил принципиальный момент, не указав какая OS.
Но судя по косвенным признакам "" (cd D:\ML) это Windows. И драйвера встали "сами собой". Под linux пришлось бы возможно повозится (а может и нет, для столь старых карт).
А если Windows, то просто ставится LLM studio. И играйтесь в ее UI интерфейсе с любыми текстовыми моделями.
можно и на python загружать модели, но если просто поиграться.. то какая разница то.
Да и для графики, генерить изображения используя чисты питон.. Ну мазохизм (хотя и дает более глубокое понимание что и как). Лучше использовать comfy ui. Под капотом те же цепочки вызовов что и руками можно сделать. Но более наглядно и проще экспериментировать.
Но 512x512 за 38 сек.. Хотя нахаляву (условно). Я даже не знаю..
Если ПК не очень мощный, то можно попробовать koboldcpp — он есть в разных вариациях под разное железо, на гитхабе у автора всё расписано, что под какое лучше. У меня лично i5-13400F, 64 ГБ ОЗУ, RTX3050 8 ГБ, мне этого хватает для комфортного использования KoboldCPP с Q5K_M-квантованными (другие типы квантования тоже будут работать, но либо скорость, либо качество будут хуже) GGUF-моделями размеров 8B, 9B, 13B с Huggingface. Если нужны более крупные и серьёзные модели, то уже нужна видеокарта с куда более объёмной видеопамятью. Не, можно и в ОЗУ, но быстродействие будет ужасным, проверено на 20B-моделях.
У меня лично i5-13400F, 64 ГБ ОЗУ, RTX3050 8 ГБ, мне этого хватает для комфортного использования GGUF-моделей размером 8B, 9B, 13B
Если нужны более крупные и серьёзные модели, то уже нужна видеокарта с куда более объёмной видеопамятью. Не, можно и в ОЗУ, но быстродействие будет ужасным, проверено на 20B-моделях.
На 20B да, не получится, а вот 120B самое оно. У вас хватает RAM и VRAM, чтобы запускать GPT-OSS-120B со скоростью выше 10 t/s.
Речь конечно про разницу между Dense и MoE моделями, и про специальный способ запуска для MoE. Вот тут подробнее: Ускоряем GPT-OSS-120B на домашнем ПК. Вам нужна RAM, а не VRAM. Новый параметр -cmoe для ускорения больших MoE LLM
Для примера запуск GPT-OSS-120B на Ryzen 5600, 64 Гб DDR4 3600 и AMD RX6600 8 Гб. Скорость генерации 13 t/s, и под контекст и под систему остается память. Видеокарта примерно того же уровня как 3050, только AMD работает через Vulkan, что медленнее чем CUDA.
Команда запуска:
.\llama-server.exe -m "D:\models\gpt-oss-120b-mxfp4-00001-of-00003.gguf" -ngl 99 -ncmoe 34 -c 16384 --jinja

На моменте "Почему это важно" перелистнул в конец и влепил честный минус за очередной чатГПТ-шный текст.
Как же надоело читать этот один и тот же щеняче-восторженно-серьезный стиль текста у разных авторов, которые рассуждают о нейросетях, но не могут даже банальную личность у llm настроить, чтобы она хоть как-то отличалась от дефолтного "ребенка-умницы-эрудита".
Здоровые зубы за 0 минут в день! Вот у меня здоровые зубы, посмотрите на мои здоровые зубы. Зубы мои зубки. Еду могу жевать, ничего не болит. Ноль минут потратил на зубы. Подпишитесь на мой телеграм
На эпиках/ксеонах и 4x3090 действительно можно собрать что-то стоящее, если про экономию. Нет смысла мучаться с (недо)описанным в статье железом.
Купил бы парочку таких серверов за озвученный прайс. Отгрузите?
Rtx2060 за ноль рублей ?! Дайте две !
Production AI сервер за ₽0: полный гайд по сборке ML-станции для Stable Diffusion на б/у комплектующих