Comments 22
Привет! Объём разработки впечатляет. Подарил приглашение. Очень полезное направление по использованию железа AMD.
Я так понял, что этот проект ты разработал с помощью ИИ из личного любопытства/интереса.
Интересно, сколько реального времени это заняло, какая модель для разработки использовалась и на каком тарифе?
И ещё вопрос. Если взять карту поддерживаемую ROCm, то какое соотношение в производительности между ROCm и Zink?
Здравствуйте! Пара вопросов:
1. Есть ли поддержка vision для Qwen3.5?
2. Где вы нашли Radeon AI PRO R9700 за $500? Полез смотреть, везде цена раза в 3 больше.
За 1500$ заголовок получился бы в 3 раза менее привлекательным :-)
Я нашел только за 231к рублей. Совсем не 500 баксов так то 🤦
Статья норм, заголовок кликбейт, msrp карты 1300 баксов, какие 500.
Все классно кроме одного, такая видяха не 500 usd, а три раза по 500.
Интересно почему AMD не делает ничего чтобы на ее картах ИИ работали без танцев с бубном

У вас картинка внутри строки… зачем так?
Потрясающая брехня кликбейт в заголовке.
За 500 баксов эту карту не найти, зато можно найти 3090 24 gb или даже V100 32 gb, пересадив которую на pcie адаптер все эти костыли становятся просто не нужны.
Ложный посыл, что модель на 35b - предел для домашнего компа.
qwen3-next-80b-a3b q4 прекрасно работала на 5060ti без бубнов.
Но в ней пропал смысл после выхода gemma-4-26b-a4b.
Подтверждаю
подразумеваете, что gemma-4-26b-a4b качественней, чем 35b и 80b ? Я вот провел тесты в своих задачах на категоризацию номенклатуры и парсинг/извлечение данных. Не вижу значимых отличий. Где-то 35b точнее, где-то gemma-4-26b... явный фаворит не выделяется.
Разве что в режиме болталки я с ними не общался, да, там может быть.
Проблема: такая модель в Q4_K_XL занимает ~21 ГБ видеопамяти.
Это не проблема вообще для локального инференса. В oobabooga text-generation-webui (llama.cpp) достаточно сделать выгрузку небольшого процента слоев в CPU. В 4060 ti спокойно входит с нормальной скоростью инференса. Не вводите людей в заблуждение.
На двух GPU с 16гб каждый нормально запускается 72b q4 и даже q5 можно.
Интересный проект, но сейчас AI чат для разработчика интересен всё меньше. Можно ли это решение использовать совместно с агентами?
Мы локально на 4х rtx 5060ti (64 гига vram) гоняем qwen под олламой. Все просто - 2 контейнера (квен и open webui), Ubuntu в качестве ос, драйвера от nvidia
Так же есть отдельное решение для 20 пользователей на 3х 5060ti. Модель 30b, зато контекст на максимум.
Цена решения да, не 500 $, но вполне приемлемо (айфон про макс стоит дороже)
По итогу
сделали плохо. Зато на Vulkan. Зато для эпл. Зато для видюхи за 500 БАКСОВ (покажи где купить - я 5 заберу). Вопрос в цене токена? Он дороже. Эт раз.
Ну и два - покажи мне человека, который сегодня купит amd видеокарту? Зачем она нужна? Дл игр - не очень, для ллм - не очень... Зачем?
Ну и три - вы молодцы. Честно. Но все надо переделать. Нужно 90% по скорости от lamacpp, иначе все не имеет смысла. Молодёжь нынче не терпеливая.
Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine