Pull to refresh

Comments 22

Привет! Объём разработки впечатляет. Подарил приглашение. Очень полезное направление по использованию железа AMD.

Я так понял, что этот проект ты разработал с помощью ИИ из личного любопытства/интереса.

Интересно, сколько реального времени это заняло, какая модель для разработки использовалась и на каком тарифе?

И ещё вопрос. Если взять карту поддерживаемую ROCm, то какое соотношение в производительности между ROCm и Zink?

Здравствуйте! Пара вопросов:
1. Есть ли поддержка vision для Qwen3.5?
2. Где вы нашли Radeon AI PRO R9700 за $500? Полез смотреть, везде цена раза в 3 больше.

За 1500$ заголовок получился бы в 3 раза менее привлекательным :-)

я даже больше скажу... так как за 60к уже можно купить 3090, на которой 35B из статьи прекрасно работает на 100t/s и без бубна, то всё, что тут в статье написано представляет собой исключительно академический интерес.

ну RX 9070 раньше была около 500, цены вернутся на место рано или поздно

Я нашел только за 231к рублей. Совсем не 500 баксов так то 🤦

Статья норм, заголовок кликбейт, msrp карты 1300 баксов, какие 500.

RX 9070 стоила около 500 до подорожания :)

RX 9070 сейчас стоит примерно ~600$, но в статье у вас написана AI PRO R9700, а она уже стоит ~1300$

Каким образом связаны RX 9070 и AI PRO R9700? Ну, кроме того, что это Radeon.

Все классно кроме одного, такая видяха не 500 usd, а три раза по 500.

Интересно почему AMD не делает ничего чтобы на ее картах ИИ работали без танцев с бубном

Это не картинка. Это знак $ перед цифрой в начале строки — перед 500. В середине перед 500 тоже можно убрать.
Текст нейронка писала.

Потрясающая брехня кликбейт в заголовке.

За 500 баксов эту карту не найти, зато можно найти 3090 24 gb или даже V100 32 gb, пересадив которую на pcie адаптер все эти костыли становятся просто не нужны.

Ложный посыл, что модель на 35b - предел для домашнего компа.

qwen3-next-80b-a3b q4 прекрасно работала на 5060ti без бубнов.

Но в ней пропал смысл после выхода gemma-4-26b-a4b.

Подтверждаю

подразумеваете, что  gemma-4-26b-a4b качественней, чем 35b и 80b ? Я вот провел тесты в своих задачах на категоризацию номенклатуры и парсинг/извлечение данных. Не вижу значимых отличий. Где-то 35b точнее, где-то gemma-4-26b... явный фаворит не выделяется.
Разве что в режиме болталки я с ними не общался, да, там может быть.

Проблема: такая модель в Q4_K_XL занимает ~21 ГБ видеопамяти.

Это не проблема вообще для локального инференса. В oobabooga text-generation-webui (llama.cpp) достаточно сделать выгрузку небольшого процента слоев в CPU. В 4060 ti спокойно входит с нормальной скоростью инференса. Не вводите людей в заблуждение.

На двух GPU с 16гб каждый нормально запускается 72b q4 и даже q5 можно.

Интересный проект, но сейчас AI чат для разработчика интересен всё меньше. Можно ли это решение использовать совместно с агентами?

Мы локально на 4х rtx 5060ti (64 гига vram) гоняем qwen под олламой. Все просто - 2 контейнера (квен и open webui), Ubuntu в качестве ос, драйвера от nvidia

Так же есть отдельное решение для 20 пользователей на 3х 5060ti. Модель 30b, зато контекст на максимум.

Цена решения да, не 500 $, но вполне приемлемо (айфон про макс стоит дороже)

По итогу

сделали плохо. Зато на Vulkan. Зато для эпл. Зато для видюхи за 500 БАКСОВ (покажи где купить - я 5 заберу). Вопрос в цене токена? Он дороже. Эт раз.

Ну и два - покажи мне человека, который сегодня купит amd видеокарту? Зачем она нужна? Дл игр - не очень, для ллм - не очень... Зачем?

Ну и три - вы молодцы. Честно. Но все надо переделать. Нужно 90% по скорости от lamacpp, иначе все не имеет смысла. Молодёжь нынче не терпеливая.

Sign up to leave a comment.

Articles