Pull to refresh

Comments 26

А так у меня то же есть такой сервер, даже круче и то же за 0 рублей, я просто поставил ComfyUI и моя RTX 4090 отлично работает на генерацию картинок и обучение LoRa с Flux-Dev, процессор Ryzen 5950х отлично справляется с нагрузкой, а 128Gb памяти позволяют держать крупную модель в памяти и продолжать работать с другими задачами такими как компиляция, всем рекомендую такой продукшен реди воркстейшен за ноль рублей. Ах да забыл что у меня еще два SSD формата M2( на 1 ТБ и 2ТБ), а так же 16ТБ жесткий диск для постоянного хранения файлов. И главное все за нуль рублей, и 10 минут работы, именно столько устанавливается ComfyUI на моем гигабитном интернете(а че бы еще этим не похвастаться). Забыл добавить что это еще мощный продукт реди воркстейшен интерпрайз грейд левел для работы с LLM, и главное за нуль рублей, ведь установка LMStudio и ollama ничего не стоит.

С ollama я тоже перед этим развлекался, но это немного другое

Вы не поняли, что иронизирую над вашей статьей потому что ее ценность около нулевая и если ее сократить, то можно уложится примерно в одну фразу "я взял неплохое железо пятилетней давности и развернул на нем немного софта из репозитория".

А Вы взяли на себя смелость и вынесли суждение за всю аудиторию о нулевой ценности материала или это лично Ваше оценочное суждение? Если персонально Ваше, так зачем читаете и пишите?

Да он прав, ценность статьи и правда нулевая. 512х512 за 40 секунд говорите? Нет, ну если железо скажем так, нашли на помойке - то вполне неплохо. Но ведь это не так ведь? Когда-то вы его купили, возможно даже за оверпрайс из-за майнеров. Сейчас для нейросеток это почитай, калькулятор. Запустится и даже будет работать, но смысла мало. Есть 3060, которая 1024х1024 за 15 сек делает, гоняет LLM, да у ней нет NVLINK, но его почти нигде нет. Но ее можно купить не из под майнеров. Есть 3090, тоже очень хорошая но в три раза дороже. Есть 4090, дороже уже в 10 раз. И так далее. А да, я забыл про материнку, которая может быть хоть и китайской но стоить вполне себе нехило.

И да, это все совсем не 0 рублей, а иногда 10 ЗП если такой комп собирать с нуля - памяти навалить, потоков у проца...блок питания этого дела всего.... Хайпуете, короче. И говорите неправду.

Ну так основной то смысл не в генерации, а в управлении Acmer P3

128gb - 4 планки?

Да, по 32Гб. Сам был удивлен, но на АМ4 платах, даже на старых чипсетах с новым процессором лимит памяти становится больше чем заявлено в ее спеках и когда появились DDR4 планки по 32Гб, оказалось что их можно поставить в мать на х470 и все завелось. Наверно х470 не самый старый, но у материнке на сайте производителе максимальный размер памяти указан 64Гб.

За 100 рублей видимо будет уже H200!
Как то так наверное да

RTX 1060 — это действительно прошлый век для ML:

  • Нет поддержки NVLINK (не синхронизируются две карты)

Было бы смешно, если бы не было так грустно. У Nvidia даже современная флагманская 5090 за 2000 Евро идет без NVLINK

Они спецом убрали нвлинк в бытовых картах, типа "покупайте h100". Немного напоминает ситуацию из 2000 про Sound Blaster Live! - карта вышла настолько крута, что использовалась даже на профессиональных студиях, а "проф" карточки в продажах сильно просели. Ну и все, перестали ее выпускать. С такими возможностями за такую цену ломается маркетинг, у нвидии похожее, они вроде даже и не скрывают это.

Тоже на этом месте остановился, чтобы пожелать автору использовать llm при написании статей как-нибудь по-другому.

Лучше не отключать встроенный iGPU в процессоре, а наоборот – сделать его устройством вывода по-умолчанию в биос. Windows будет отъедать память на основном видеоадаптере под свои нужды, независимо подключаете вы монитор или нет, отнимая ее у моделей. А контролировать запуск моделей на определенных GPU можно - или через переменные среды или через параметры запуска.
Также стоит сказать, что возможна работа в WSL2 и Linux через специальные драйверы предоставляемые Nvidia.

а можно аналогичную статью, только для текстовых моделей?

А какая разница, если все заработало на уровне драйверов?

Автор правда упустил принципиальный момент, не указав какая OS.
Но судя по косвенным признакам "" (cd D:\ML) это Windows. И драйвера встали "сами собой". Под linux пришлось бы возможно повозится (а может и нет, для столь старых карт).

А если Windows, то просто ставится LLM studio. И играйтесь в ее UI интерфейсе с любыми текстовыми моделями.
можно и на python загружать модели, но если просто поиграться.. то какая разница то.

Да и для графики, генерить изображения используя чисты питон.. Ну мазохизм (хотя и дает более глубокое понимание что и как). Лучше использовать comfy ui. Под капотом те же цепочки вызовов что и руками можно сделать. Но более наглядно и проще экспериментировать.

Но 512x512 за 38 сек.. Хотя нахаляву (условно). Я даже не знаю..

я пробовал разные варианты, но у меня то ли компьютер слабый для ИИ (встроенная видеокарта), то ли я не те модели использую - результаты хуже, чем у бесплатной версии perplexity

Если ПК не очень мощный, то можно попробовать koboldcpp — он есть в разных вариациях под разное железо, на гитхабе у автора всё расписано, что под какое лучше. У меня лично i5-13400F, 64 ГБ ОЗУ, RTX3050 8 ГБ, мне этого хватает для комфортного использования KoboldCPP с Q5K_M-квантованными (другие типы квантования тоже будут работать, но либо скорость, либо качество будут хуже) GGUF-моделями размеров 8B, 9B, 13B с Huggingface. Если нужны более крупные и серьёзные модели, то уже нужна видеокарта с куда более объёмной видеопамятью. Не, можно и в ОЗУ, но быстродействие будет ужасным, проверено на 20B-моделях.

У меня лично i5-13400F, 64 ГБ ОЗУ, RTX3050 8 ГБ, мне этого хватает для комфортного использования GGUF-моделей размером 8B, 9B, 13B
Если нужны более крупные и серьёзные модели, то уже нужна видеокарта с куда более объёмной видеопамятью. Не, можно и в ОЗУ, но быстродействие будет ужасным, проверено на 20B-моделях.

На 20B да, не получится, а вот 120B самое оно. У вас хватает RAM и VRAM, чтобы запускать GPT-OSS-120B со скоростью выше 10 t/s.

Речь конечно про разницу между Dense и MoE моделями, и про специальный способ запуска для MoE. Вот тут подробнее: Ускоряем GPT-OSS-120B на домашнем ПК. Вам нужна RAM, а не VRAM. Новый параметр -cmoe для ускорения больших MoE LLM

Для примера запуск GPT-OSS-120B на Ryzen 5600, 64 Гб DDR4 3600 и AMD RX6600 8 Гб. Скорость генерации 13 t/s, и под контекст и под систему остается память. Видеокарта примерно того же уровня как 3050, только AMD работает через Vulkan, что медленнее чем CUDA.

Команда запуска:
.\llama-server.exe -m "D:\models\gpt-oss-120b-mxfp4-00001-of-00003.gguf" -ngl 99 -ncmoe 34 -c 16384 --jinja

GPT-OSS-120B запущена на AMD RX 6600, 13 t/s
GPT-OSS-120B запущена на AMD RX 6600, 13 t/s

Генерация у меня это не основная задача машины. Далее я буду прикручивать YOLOv8 для работы с Acmer P3. Поэтому часть ресурсов я зарезервировал под YOLOv8.

На моменте "Почему это важно" перелистнул в конец и влепил честный минус за очередной чатГПТ-шный текст.

Как же надоело читать этот один и тот же щеняче-восторженно-серьезный стиль текста у разных авторов, которые рассуждают о нейросетях, но не могут даже банальную личность у llm настроить, чтобы она хоть как-то отличалась от дефолтного "ребенка-умницы-эрудита".

Здоровые зубы за 0 минут в день! Вот у меня здоровые зубы, посмотрите на мои здоровые зубы. Зубы мои зубки. Еду могу жевать, ничего не болит. Ноль минут потратил на зубы. Подпишитесь на мой телеграм

У меня уже станут здоровые зубы за 0 рублей?..

На эпиках/ксеонах и 4x3090 действительно можно собрать что-то стоящее, если про экономию. Нет смысла мучаться с (недо)описанным в статье железом.

Купил бы парочку таких серверов за озвученный прайс. Отгрузите?

Rtx2060 за ноль рублей ?! Дайте две !

Sign up to leave a comment.

Articles