Pull to refresh

Comments 33

На реддите пишут что там ПО еще очень сырое. И даже в США эти карты хрендостаниум. Только в каких-то аукционах.

кто объединит ячейку памяти хотя бы 16 bit с вычислителем тензоров и придумает теплоотвод, создаст по-настоящему крутое устройство ИИ

тогда уже лучше сразу на аналоговую сетку закладыватся :) минимум тепла, мнгновенное вычисление вне зависимости от размера модели... Правда, программируемые резисторы и конденсаторы в нанометрах делать не научились пока что.

да, похоже, возвращаемся к аналоговым вычислениям

а если еще сделать вычислитель перемножающий за один цикл...

На лампах нужно делать, на лампах!

Между прочим, были лампы, которые с помощью свойств электронного луча и сложной системы электродов автоматически вычисляли дифференциальные уравнения с погрешностью до 1%. Тогда это называлось ИИ и использовалось в системах автоматизированного управления. Не смог найти сейчас описания, но я точно помню как нам показывали их в качестве предельного развития мысли развития электровакуумных устройств.

Мгновенное вычисление на аналоговых вычислителях? Разве что при очень быстрых ОУ. Операции сложнее суммирования та еще головная боль, особенно если нужна точность.

Наверное 2-4 бита точности для операции умножения должны быть реальны. Ну, для тех задач где такой точности достаточно. При чем без какой-то адовой схемотехники. Но вот рост точности свыше 4 бит…

не, рано. 32Гб версия более чем в 3 раза медленнее nvidia, а дешевле только в 2. странная затея тогда

В таблицы было бы интересно добавить ещё одно перспективное на бу-рынке изделие - AMD instinct mi50 32GB - эта версия сейчас в РФ с доставкой из Китая стоит в районе 17000-18000 руб.

deepseek сказал что по fp8 и пропускной способности памяти она примерно эквивалентна RTX3090, но, заботливо предупредил deepseek, что софт сырой, вероятно, потребуется эксперименты, в чем я не сомневаюсь.

Пока удел нищебродов типа меня только бу ускорители AMD из Китая. Я заказал пару, скоро будет ясно, можно ли на них deepseek запустить )

Напишите, как запустите. Очень интересно.

У меня четыре mi50 32gb в сервере - нормально крутятся, deepseek 70b Q6 или Q8 идёт от 7 до 12 t/s в зависимости от того, что использовать llama, vLLM, ollama, ... Но чудес ждать не стоит, карты старые и довольно медленные.

Поговорил с o3, говорит что карты старые, поддержка давно закончена, и для работы с ними надо старые драйвера, и не будут работать новые фишки ускорения вычислений. Придётся остаться на старых драйверах и библиотеках. А новых дешевых карт на 32Gb не делают. Вот его TL;DR

— MI50 32 GB: 90 % лотов — Radeon VII с наклейкой. Проверяйте PCI ID (0x66A1) и объём. Работает только на ROCm ≤ 6.3, скорость ~2 ток/с на Llama‑70B Q6. Брать стоит, если устроит цена ≤ 20 k ₽ и готовы прошивать/охлаждать.

— MI100 32 GB: новый «sweet‑spot». 750–850 USD, ROCm поддержка ещё жива, ~3–4 ток/с. Пассивный радиатор, но беспроблемней MI50.

— Tesla V100 32 GB PCIe: CUDA 12.x, 600–900 USD. Чуть быстрее MI100 благодаря Tensor Cores, зато памяти впритык.

— Свежих «нищебродских» 32 GB нет: W6800/W7800 стоят 1,3–2,5 k USD, RTX 5000 Ada ~4 k USD. Дешевле только древние MI/V‑серии.

— Склеить две 16 GB‑карты можно (--tensor-parallel-size 2 в vLLM), но PCIe съест выгоду: прирост < 30 %, а сложностей × 2. Без NVLink это вариант «поместить модель любой ценой», не «ускорить».

Итого: либо берём один честный 32 GB HBM (MI100 / V100) и живём спокойно, либо готовимся к танцам с двумя 16 GB и скорости уровня одной карты. Чудес дешевле пока не завезли.

Ты не с о3 говори, а со мной, у меня оно есть и работает :-) А o3 хрень несёт.

  1. На 70b q6 будет от 7 до 12 t/s - зависит от движка.

  2. ROCm 6.3.4 и 6.4.0 c минимальным хаком https://github.com/ROCm/ROCm/issues/4625

  3. Свежая Radeon 9700 AI с 32gb

  4. PCIe ничего не съест если карты стоят на честных 4.0 x16, e.g. EPYC server.

  5. MI100 это конечно же не 3-4t/s а гораздо быстрее.

Спасибо! Блин, да, слабенько. Надеялся что будет круче. Пока 3090 и а5000 наше всё, но памяти уже сильно не хватает..

Надо минимум две 3090 чтобы deepseek 70b q4 запустить, а q6 - уже пролёт. И две 3090 будут стоить под две тысячи баксов. За эти деньги две mi100 отличный вариант.

Ну не под две- скорее 1100-1300 долларов- бу 3090 сейчас на авито огромный выбор по 40-50тр. Но речь не о мелких моделях, а о нормальных на 700 млрд параметров. И вот для них не хватает памяти даже на риге с 8шт 3090/А5000.. Хочется карты с 32гб, а лучше больше- но ценник прям резко взлетает. Я поэтому и навелся на Tenstorrent p150a- у ней 32 Гб. Но чудес такого рода небывает)) Да, ну и интерконнект у них радует..

mi100 это 32гб, а вот 3090 только 24гб. Есть 4090 с 48гб напаянными в Китае, я не знаю, насколько они надёжные после такой пайки.

Говорят, что 100% mi 32 Gb из Китая, это подделки (radeon VII с переклеенными наклейками?).

Я, кстати, не знаю, почему это плохо, ведь это по сути одно и то же. Но люди на форумах, говорят, что так.

Сами китайцы говорят, что перешили firmware на радеоновскую, т.к. продают её именно как игровую карту. Они, по слухам, даже кладут mini-hdmi - hdmi переходник в комплект, но по другим слухам, он не работает, даже несмотря на замену прошивки.

Я так понял, можно перешить назад.

На форумах говорили, что видео не работает и есть второстепенные проблемы с динамическим управлением питанием. Но перешить можно только программатором.

У меня есть карты и на 16 и на 32, перепрошиваются одной командой что на винде, что на линуксе, что-то типа
amdvbflash -f -p 0 32G.rom
как прога так и биосы различные свободно ищутся в интернете или выдаются продавцами.
Проблема биоса под работу с дисплеем в том, что отрубается PCIE v4 и остаётся только v3,
натыкался на видео обзоры где показывали что они не тянут новые шейдеры, поэтому для новых игр так себе...

Как-то сомнительно. Есть большие вопросы по стоимости и реальной производителности.

Железки не шибко частые, но все же существуют, лично работал и с вормхолами и с блэкхолами.

Цифры можно посмотреть тут, например - https://github.com/tenstorrent/tt-metal

Ничего выдающегося в целом, но какая-никакая альтернатива нвидии и есть неочевидные бонусы в виде очень дешевого интерконнекта

но какая-никакая альтернатива нвидии

а можете, чуть подробнее раскрыть в чем альтернатива?

Альтернатива инвесторам, многие считают, что в НВ поздно вкладываться, а тут если ТТ достанется от Старгейтов и прочих триллионов то они могут сказочно взлететь через несколько итераций архитектуры.

Казалось бы да, но оно же проигрывает в произовдительности-за-доллар? Тогда какой смысл брать что-то, что глючит, хуже поддерживается и при этом выходит дороже?!

Проигрывает чему именно?

3090 и 4090 которых больше не делают?
5090 сейчас продаются по ~3k долларов, за эти деньги можно взять два p150, у вас будет в два раза больше памяти и в два раза меньше memory bandwidth. Не совсем честное сравнение получается.

А если смотреть, например, на рабочих лошадок прошлого поколения - H100 (80gb), которые уходят по 25-30к за штуку, то тут уже совсем другая математика получается, особенно если учесть дешевый интерконнект на тенсторренте (QSFP прмо на плате)

Sign up to leave a comment.

Information

Website
ruvds.com
Registered
Founded
Employees
11–30 employees
Location
Россия
Representative
ruvds