zolotukhinru Apr 8 at 08:27

Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine

11 min

14K

Machine learning * High performance * Programming * Open source * System Programming *

Case

From sandbox

+36

Comments 22

inetstar Apr 8 at 08:32

Привет! Объём разработки впечатляет. Подарил приглашение. Очень полезное направление по использованию железа AMD.

Я так понял, что этот проект ты разработал с помощью ИИ из личного любопытства/интереса.

Интересно, сколько реального времени это заняло, какая модель для разработки использовалась и на каком тарифе?

inetstar Apr 8 at 08:47

И ещё вопрос. Если взять карту поддерживаемую ROCm, то какое соотношение в производительности между ROCm и Zink?

debagger Apr 8 at 08:57

Здравствуйте! Пара вопросов:
1. Есть ли поддержка vision для Qwen3.5?
2. Где вы нашли Radeon AI PRO R9700 за $500? Полез смотреть, везде цена раза в 3 больше.

koreychenko Apr 8 at 09:07

За 1500$ заголовок получился бы в 3 раза менее привлекательным :-)

Marwin Apr 8 at 17:22

я даже больше скажу... так как за 60к уже можно купить 3090, на которой 35B из статьи прекрасно работает на 100t/s и без бубна, то всё, что тут в статье написано представляет собой исключительно академический интерес.

zolotukhinru Apr 9 at 05:13

ну RX 9070 раньше была около 500, цены вернутся на место рано или поздно

Troft 17 hours ago

Я нашел только за 231к рублей. Совсем не 500 баксов так то 🤦

AngryEvilCookie Apr 8 at 13:22

Статья норм, заголовок кликбейт, msrp карты 1300 баксов, какие 500.

zolotukhinru Apr 9 at 05:12

RX 9070 стоила около 500 до подорожания :)

sipM Apr 9 at 11:32

RX 9070 сейчас стоит примерно ~600$, но в статье у вас написана AI PRO R9700, а она уже стоит ~1300$

Lapsher Apr 9 at 11:32

Каким образом связаны RX 9070 и AI PRO R9700? Ну, кроме того, что это Radeon.

Romatio Apr 8 at 17:13

Все классно кроме одного, такая видяха не 500 usd, а три раза по 500.

stepigal Apr 8 at 17:14

Интересно почему AMD не делает ничего чтобы на ее картах ИИ работали без танцев с бубном

Advisory Apr 8 at 17:31

У вас картинка внутри строки… зачем так?

yppro 15 hours ago

Это не картинка. Это знак $ перед цифрой в начале строки — перед 500. В середине перед 500 тоже можно убрать.
Текст нейронка писала.

V4ssol Apr 8 at 19:46

Потрясающая ~~брехня~~ кликбейт в заголовке.

За 500 баксов эту карту не найти, зато можно найти 3090 24 gb или даже V100 32 gb, пересадив которую на pcie адаптер все эти костыли становятся просто не нужны.

fermentum Apr 8 at 21:37

Ложный посыл, что модель на 35b - предел для домашнего компа.

qwen3-next-80b-a3b q4 прекрасно работала на 5060ti без бубнов.

Но в ней пропал смысл после выхода gemma-4-26b-a4b.

HomoLuden Apr 9 at 06:54

Подтверждаю

Marwin Apr 9 at 14:59

подразумеваете, что gemma-4-26b-a4b качественней, чем 35b и 80b ? Я вот провел тесты в своих задачах на категоризацию номенклатуры и парсинг/извлечение данных. Не вижу значимых отличий. Где-то 35b точнее, где-то gemma-4-26b... явный фаворит не выделяется.
Разве что в режиме болталки я с ними не общался, да, там может быть.

HomoLuden Apr 9 at 06:52

Проблема: такая модель в Q4_K_XL занимает ~21 ГБ видеопамяти.

Это не проблема вообще для локального инференса. В oobabooga text-generation-webui (llama.cpp) достаточно сделать выгрузку небольшого процента слоев в CPU. В 4060 ti спокойно входит с нормальной скоростью инференса. Не вводите людей в заблуждение.

На двух GPU с 16гб каждый нормально запускается 72b q4 и даже q5 можно.

FlyGst yesterday at 05:23

Интересный проект, но сейчас AI чат для разработчика интересен всё меньше. Можно ли это решение использовать совместно с агентами?

xabar 16 hours ago

Мы локально на 4х rtx 5060ti (64 гига vram) гоняем qwen под олламой. Все просто - 2 контейнера (квен и open webui), Ubuntu в качестве ос, драйвера от nvidia

Так же есть отдельное решение для 20 пользователей на 3х 5060ti. Модель 30b, зато контекст на максимум.

Цена решения да, не 500 $, но вполне приемлемо (айфон про макс стоит дороже)

По итогу

сделали плохо. Зато на Vulkan. Зато для эпл. Зато для видюхи за 500 БАКСОВ (покажи где купить - я 5 заберу). Вопрос в цене токена? Он дороже. Эт раз.

Ну и два - покажи мне человека, который сегодня купит amd видеокарту? Зачем она нужна? Дл игр - не очень, для ллм - не очень... Зачем?

Ну и три - вы молодцы. Честно. Но все надо переделать. Нужно 90% по скорости от lamacpp, иначе все не имеет смысла. Молодёжь нынче не терпеливая.