Comments 15
За 7500 купил 2 видухи по 30-40к, 960гб памяти и прочие компоненты. Охотно верю.
Какой-то аттракцион невиданной щедрости, один AMD Instinct MI210 на ebay торгуется обычно выше 6к$
Но вот если и когда эти карты будут выводить массово из эксплуатации для замены на более модные - самое то для десктопа, имхо
Не, всё правда. Я сам видел это объявление о продаже на канале LocalLLaMA реддита больше месяца назад.
В комментариях тоже было что это мошенничество. Никто бы не расстался с такими деньгами просто под обещание выслать. А тут просто покупатель готов был приехать лично.
А сколько еще может стоить списанное редкое оборудование, которое возможно выработало аммортизацию и использовалось в хвост и гриву?
Теперь у меня есть настольная система, способная запускать модели с 235 миллиардами параметров дома
Только что с ней делать - вопрос не раскрыт... Вроде для личного пользования дешевле использовать коробочные сервисы. Разве что если для внутренних целей компании, которая не хочет отдавать свой код сторонним сервисам.
да один раз я тоже слышал хлопок от материнской платы, кажется причиной была пыль, наверное одна из распространненых для КЗ, в общем нужно быть осторожней)
2x xeon e5 на сокуте 2011-3 с 512 гб ddr4 могут запустить модели с 400 млрд параметров
показывающих температуры, словно плата лежит на поверхности Солнца
Ну, нет. 15 млн. - это в ядре. А на поверхности 5-6 тыс. градусов.
Хорошо, когда денег на игры достаточно, но если денег дефицит, то некоторые собирают железку в пределах 3000 долларов и запускают на ней дипсик. Именно об этом на хабре была статья несколько месяцев назад. Напомню, дипсик имеет ~700 миллиардов параметров. Запускался, как и в текущем тексте, в квантизации 4 бита. Правда скорость была поменьше, то да.
Теперь про скорость. Вот компиляция упомянута на 144 ядрах. Заняла 90 секунд. Ну что тут сказать... Запускаю на 24 ядрах ту же llama.cpp, получаю ~100 секунд в двух вариантах - с парой CUDA архитектур и с дефолтным количеством. Напрашивается вывод о невысокой эффективности тех 144 ядер. Либо о неправильно их использовании автором - в скрипте с билдом надо дописать -j 144.
Собственно про скорость нейросеток. Все продемонстрированные сетки принадлежат к архитектуре MOE, то есть активных параметров у них мало, что и создаёт впечатление большой скорости. Но! Надо сравнить с более дешёвым оборудованием. Идём на llama.cpp и смотрим бенчи для CUDA устройств на модели 7+ миллиардов параметров. Имеем рекорд где-то в 300+ тоекнов в секунду. В запущенном автором gpt-oss имеем 5.1 миллиарда активных параметров. То есть меньше, чем в бенчах на llama.cpp. Правда остальные параметры тоже используются, но сильно реже, хотя сам факт использования вносит вклад в просадку скорости. Какой вклад? Ну например qwen3-30 с 3 миллиардами активных параметров бегает примерно в 1.2 раза медленнее чем phi-mini с 3.84 миллиардами параметров. То есть, аппроксимируя, получаем вряд ли больше полуторократного замедления на сопоставимых размерах. В замерах автора имеем ~200 токенов в секунду на активных 5.1 миллиардах, ускоряем в полтора раза, получаем 300 токенов на моделях в 5 миллиардов параметров. Сравниваем с бенчами на llama.cpp - имеем 300 на 7B против 300 на 5B.
Вообще, тема перебора NVIDIA с ценами на корпоративное железо весьма заметна, но что бы вот так сливать при цене чуть ли не в сто раз больше...
В общем, главное предназначение всех этих мега-устройств, на самом-то деле, есть обучение моделей. При этом используются не квантованные матрицы, а полновесные, по 32 бита на параметр. Плюс параллельно на одном устройстве запускается несколько потоков. То есть полученные 200 попугаев не дают корректной оценки производительности железа. Как минимум нужно сравнивать запуск эквивалентных моделей, то есть при квантовании 32 бита. Плюс в несколько потоков. Тогда и будет сопоставимая оценка. Хотя и в ней, подозреваю, данная супер-железка сольёт более дешёвым решениям. Но тут уже славу нужно отдать маркетологам NVIDIA (ну и корпоративным глупцам, которые закупают всё это железо для своих дата-центров и задираю тем цены до небес). Недаром гуглы с Илонами Масками работают с железками собственного изготовления, что даже с учётом накладных расходов на проектирование получается сильно дешевле.
Ну а автору всё же стоит сказать спасибо. Ибо он получил очень занимательный опыт и подготовил реально полезный испытательный стенд. Вот если бы ещё этот стенд, да погонять на сопоставимых с дешёвым железом нагрузках! Цены бы автору тогда не было!
Ему очень-очень сильно повезло, что такое железо за эти копейки добыл. Особенно сейчас...
Ему повезло, что вся эта не самая дешевая куча железа у него завелась в итоге.
Ну и да, любопытно, вложив 10к евро, человек для себя и на свой вкус отбил/оправдал эти затраты? Или - пылится стоит шкафчик?
Фиг знает, он не не написал зачем это покупает. У меня бы точно "отбилось", хоть и не в прямом смысле этого слова. Чего там далеко ходить - пишем скрипт который долбит нейронку в режиме 24/7 с заранее написанными промптами. Если этот скрипт гонять через API агрегаторов - ну за несколько дней он эти 10 000$ сожрет и не поперхнется (точнее агрегаторы). Зачем это нужно - это своеобразный подход не увеличивая размер модели сделать вывод качественней. Они же все же врут так или иначе. Поэтому скриптуем туда оценщиков и всяких прочих агентов. Вот и выходит, что по одноку промпту оно сотню раз внутри себя прогоняет по определенному пайплайну, токенозатраты бешеные и это имеет делать смысл только если железо твое.
Сборка высокопроизводительного AI-десктопа