Aleks_Koh May 10 at 12:46

Локальный ИИ на «древнем» железе: выжимаем максимум из AMD RX 580 через Vulkan в Fedora (Llama 3.1, DeepSeek, Qwen 3.5)

Medium

6 min

12K

Artificial IntelligenceDevelopment for Linux * System administration * Old hardwareOpen source *

Case

From sandbox

+11

Comments 8

Agne May 10 at 13:14

А если несколько rx580 они недорогие . и платка на ксеон. И принципиально ли ддр4 или ддр3 подойдет

Incognito4pda May 10 at 13:55

Выжимать что-то из Олламы это как стрелять себе в ногу. Автор хотя бы изучил бы современный стек, прежде чем строчить полотно. Оллама уже давно смешной полукомерческий анахронизм в числе вечно догоняющих. Вы на выжали, а ноборот себя загнали в рамки этого тормознутого поделия, на которой генерация почти в 2 раза медленнее чем на llama.cpp например. Когда вижу как автор очередного гайда что-то там вымучивает из Олламы - сразу ясно, в вопросах ии генерации явно дилетант.

JajaComp May 10 at 18:05

Не совсем так. На стадии исследования ollama вполне себе норм. Если на нем завелось, то и на llama будет работать с приростом процентов 20

Ryav May 15 at 07:40

А llama.cpp уже научилась динамически выгружать и загружать в память модели в зависимости от потребности? Я может плохо искал, но не нашёл нормальной реализации этого с простым пробросом в Open WebUI.

Incognito4pda May 15 at 10:13

Искать не нужно, всё есть в доках на гитхаб. Научилась - спокойно подключаете к OpenWebUi и меняете модели переключением в главном окне чата. Тоже раньше приходилось юзать llama-swap для этих целей, но в каком-то очередном обновлении llama.cpp сам подтянул возможность менять модели на лету. Причём там можно выбрать либо только одна модель будет постоянно в памяти (текущую выгружаем, новую зашружаем), либо несколько - количество моделей можно указать.

VGusev2007 May 10 at 18:03

Тут больше вопрос: а что делать то с такими маленькими моделями? Где они могут приносить пользу?

DSoap May 11 at 00:28

Достаточно интересная статья, а насколько хорошее качество моделей и есть ли горизонот для масштабирования? (Например несколько поставить видеокарт?)

Aleks_Koh May 11 at 07:05

Всем спасибо за обсуждение и критику! Согласен, что llama.cpp быстрее, но целью был именно простой “бандл” для n8n. Про несколько карт — идея интересная, но пока для меня не реализуемая. Я показываю, как запустить современные ИИ-технологии на железе, которое уже есть на руках у многих людей или легко приобретается на вторичном рынке за разумные деньги. Это решение с минимальным порогом входа для тех, кто хочет иметь свой локальный ИИ здесь и сейчас.