Comments 33
На реддите пишут что там ПО еще очень сырое. И даже в США эти карты хрендостаниум. Только в каких-то аукционах.
кто объединит ячейку памяти хотя бы 16 bit с вычислителем тензоров и придумает теплоотвод, создаст по-настоящему крутое устройство ИИ
тогда уже лучше сразу на аналоговую сетку закладыватся :) минимум тепла, мнгновенное вычисление вне зависимости от размера модели... Правда, программируемые резисторы и конденсаторы в нанометрах делать не научились пока что.
да, похоже, возвращаемся к аналоговым вычислениям
а если еще сделать вычислитель перемножающий за один цикл...
На лампах нужно делать, на лампах!
Между прочим, были лампы, которые с помощью свойств электронного луча и сложной системы электродов автоматически вычисляли дифференциальные уравнения с погрешностью до 1%. Тогда это называлось ИИ и использовалось в системах автоматизированного управления. Не смог найти сейчас описания, но я точно помню как нам показывали их в качестве предельного развития мысли развития электровакуумных устройств.
http://www.155la3.ru/lf_9p.htm Спасибо за сообщение, Восхитительная лампа.
Мгновенное вычисление на аналоговых вычислителях? Разве что при очень быстрых ОУ. Операции сложнее суммирования та еще головная боль, особенно если нужна точность.
$nvda сливать или ещё рано?
биток уже майнили?)
В таблицы было бы интересно добавить ещё одно перспективное на бу-рынке изделие - AMD instinct mi50 32GB - эта версия сейчас в РФ с доставкой из Китая стоит в районе 17000-18000 руб.
deepseek сказал что по fp8 и пропускной способности памяти она примерно эквивалентна RTX3090, но, заботливо предупредил deepseek, что софт сырой, вероятно, потребуется эксперименты, в чем я не сомневаюсь.
Пока удел нищебродов типа меня только бу ускорители AMD из Китая. Я заказал пару, скоро будет ясно, можно ли на них deepseek запустить )
Напишите, как запустите. Очень интересно.
У меня четыре mi50 32gb в сервере - нормально крутятся, deepseek 70b Q6 или Q8 идёт от 7 до 12 t/s в зависимости от того, что использовать llama, vLLM, ollama, ... Но чудес ждать не стоит, карты старые и довольно медленные.
Поговорил с o3, говорит что карты старые, поддержка давно закончена, и для работы с ними надо старые драйвера, и не будут работать новые фишки ускорения вычислений. Придётся остаться на старых драйверах и библиотеках. А новых дешевых карт на 32Gb не делают. Вот его TL;DR
— MI50 32 GB: 90 % лотов — Radeon VII с наклейкой. Проверяйте PCI ID (0x66A1) и объём. Работает только на ROCm ≤ 6.3, скорость ~2 ток/с на Llama‑70B Q6. Брать стоит, если устроит цена ≤ 20 k ₽ и готовы прошивать/охлаждать.
— MI100 32 GB: новый «sweet‑spot». 750–850 USD, ROCm поддержка ещё жива, ~3–4 ток/с. Пассивный радиатор, но беспроблемней MI50.
— Tesla V100 32 GB PCIe: CUDA 12.x, 600–900 USD. Чуть быстрее MI100 благодаря Tensor Cores, зато памяти впритык.
— Свежих «нищебродских» 32 GB нет: W6800/W7800 стоят 1,3–2,5 k USD, RTX 5000 Ada ~4 k USD. Дешевле только древние MI/V‑серии.
— Склеить две 16 GB‑карты можно (--tensor-parallel-size 2 в vLLM), но PCIe съест выгоду: прирост < 30 %, а сложностей × 2. Без NVLink это вариант «поместить модель любой ценой», не «ускорить».
Итого: либо берём один честный 32 GB HBM (MI100 / V100) и живём спокойно, либо готовимся к танцам с двумя 16 GB и скорости уровня одной карты. Чудес дешевле пока не завезли.
Ты не с о3 говори, а со мной, у меня оно есть и работает :-) А o3 хрень несёт.
На 70b q6 будет от 7 до 12 t/s - зависит от движка.
ROCm 6.3.4 и 6.4.0 c минимальным хаком https://github.com/ROCm/ROCm/issues/4625
Свежая Radeon 9700 AI с 32gb
PCIe ничего не съест если карты стоят на честных 4.0 x16, e.g. EPYC server.
MI100 это конечно же не 3-4t/s а гораздо быстрее.
Спасибо! Блин, да, слабенько. Надеялся что будет круче. Пока 3090 и а5000 наше всё, но памяти уже сильно не хватает..
Надо минимум две 3090 чтобы deepseek 70b q4 запустить, а q6 - уже пролёт. И две 3090 будут стоить под две тысячи баксов. За эти деньги две mi100 отличный вариант.
Ну не под две- скорее 1100-1300 долларов- бу 3090 сейчас на авито огромный выбор по 40-50тр. Но речь не о мелких моделях, а о нормальных на 700 млрд параметров. И вот для них не хватает памяти даже на риге с 8шт 3090/А5000.. Хочется карты с 32гб, а лучше больше- но ценник прям резко взлетает. Я поэтому и навелся на Tenstorrent p150a- у ней 32 Гб. Но чудес такого рода небывает)) Да, ну и интерконнект у них радует..
Говорят, что 100% mi 32 Gb из Китая, это подделки (radeon VII с переклеенными наклейками?).
Я, кстати, не знаю, почему это плохо, ведь это по сути одно и то же. Но люди на форумах, говорят, что так.
Сами китайцы говорят, что перешили firmware на радеоновскую, т.к. продают её именно как игровую карту. Они, по слухам, даже кладут mini-hdmi - hdmi переходник в комплект, но по другим слухам, он не работает, даже несмотря на замену прошивки.
Я так понял, можно перешить назад.
На форумах говорили, что видео не работает и есть второстепенные проблемы с динамическим управлением питанием. Но перешить можно только программатором.
У меня есть карты и на 16 и на 32, перепрошиваются одной командой что на винде, что на линуксе, что-то типа
amdvbflash -f -p 0 32G.rom
как прога так и биосы различные свободно ищутся в интернете или выдаются продавцами.
Проблема биоса под работу с дисплеем в том, что отрубается PCIE v4 и остаётся только v3,
натыкался на видео обзоры где показывали что они не тянут новые шейдеры, поэтому для новых игр так себе...
Как-то сомнительно. Есть большие вопросы по стоимости и реальной производителности.
Железки не шибко частые, но все же существуют, лично работал и с вормхолами и с блэкхолами.
Цифры можно посмотреть тут, например - https://github.com/tenstorrent/tt-metal
Ничего выдающегося в целом, но какая-никакая альтернатива нвидии и есть неочевидные бонусы в виде очень дешевого интерконнекта
но какая-никакая альтернатива нвидии
а можете, чуть подробнее раскрыть в чем альтернатива?
Казалось бы да, но оно же проигрывает в произовдительности-за-доллар? Тогда какой смысл брать что-то, что глючит, хуже поддерживается и при этом выходит дороже?!
Проигрывает чему именно?
3090 и 4090 которых больше не делают?
5090 сейчас продаются по ~3k долларов, за эти деньги можно взять два p150, у вас будет в два раза больше памяти и в два раза меньше memory bandwidth. Не совсем честное сравнение получается.
А если смотреть, например, на рабочих лошадок прошлого поколения - H100 (80gb), которые уходят по 25-30к за штуку, то тут уже совсем другая математика получается, особенно если учесть дешевый интерконнект на тенсторренте (QSFP прмо на плате)
Карты Tenstorrent для DIY-сервера с локальной LLM