Комментарии 50
Можно влезть в около 20к. Люди за копейки сдают видеокарты с процессором и памятью, и я сам занимаюсь этим: около 10 рублей в час. Если это реально востребовано, то переход на частные сервера — это логичный следующий шаг, но это менее востребовано, чем расширение функций ИИ
все жду когда появятся или нормальные мануалы для "готовки" промышленных fpga под нейронки (вшивание весов на уровне fpga-логики) или нормальные процессоры по типу епеловских где все есть один процессор на одной оперативке
видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год
вшивание весов на уровне fpga-логики
Не очень представляю, чтобы это сработало. У моделей миллиарды параметров, у ПЛИС — хорошо если сотни тысяч LUT’ов. Даже если на кодирование каждого бита весов модели в среднем уйдёт всего лишь один лут, арифметика никак не сходится. К тому же, большие ПЛИС стоят ужасно дорого, будет дешевле видеокартами закупиться.
Куда реалистичнее другой подход: реализовать на ПЛИС базовые операции инференса и прогонять через них данные из памяти в память, как это и делают видеокарты, но и тут есть проблемы:
ПЛИС, способные работать с DDR5, прям недешёвые, а по DDR3 много данных не нагоняешь,
ширина шины памяти тоже ограничена кремнием, хорошо если наберётся подходящих пинов на 256 бит данных (а скорей на 128).
ну да, я где-то это и имел в виду
серверные FPGA-лезвия имеют слоты под оперативку и внутренний жесткий диск с простой ос что загружает в память при старте если нужно
но там каждое первое лезвие закрытое, документацию хрен достанешь и стоит как раз столько же
но есть рынок списанных (под биткоины в основном) а потому возможно когда-то. Главное что если выстрелит то быстро появится дешевле, спрос рождает предложение, а серверные fpga такие дорогие потому что узкая и чрезвычайно денежная ниша
Поддерживаю!
ПЛИС это логичный шаг, но просто нет таких плисин в размерах подходящих под нормальную сеть в рознице. Если вместо ЛЕ брать интерфейс к ddr памяти, то мы возвращаемся к архитектуре типа видеокарты. Тогда дешевле ее и взять
видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год
Учитывая, какой нынче спрос (свободный GPU за вменяемую цену в дата-цантрах днем с огнем не сыщешь), а также то, что выпуск потребительских RTX 6090 Ti Super++ откладывается уже чуть ли не на 2028-й, купленные видяхи проживут несколько лет.
Тоже считал-считал и выходит, что это по стоимости равно 2 годам подписки макс. Не считая электричества. И мороки. Не сошлась у меня экономика.
Ну ее, эту приватность.
Я купил fevm faex 9, минипк на амд райзен 395.
Цена вопроса около 250, 128гб озу, для одного хорошо работает.
Сейчас сижу на дипсик 4 флэш в 2q и оно работает! Не тупит, кодит хорошо (через opencode).
14 токенов в сек, но для личного использования вполне.
а доступность?
Локальный сервер окупается, если на нем крутятся агентные системы, делающие тысячи запросов в день. Подписки на API с такими лимитами стоят как крыло от самолета
Можно влезть в бюджет и до 40 000 руб - 4 штуки P102-100 в общем 40Гб VRAM. Для комфортного использования 32B моделей хватает (20-50 ток сек с контекстом 100K). Если интересно могу написать как как это сделать. Использую llama.cpp, для некоторых задач адаптировал vllm под sm_61 Paskal https://github.com/ampir-nn/vllm-pascal
хммм... Раньше Tesla V100 рекомендовали покупать, особенно в SXM (карты 2017 года). Но говорят, что две проблемы
1. они вслед за актуальными картами подорожали, особенно с 32ГБ, но и 16 ГБ тоже, якобы 25-75 тысяч за штуку (плюс обвязка на SXM)
2. они не поддерживают каких-то новомодных форматов типа fp4 и новые модели всё чае и чаще на них не работают. Не напрямую, а просто расходятся минимальная версия CUDA для модели и максимальная для процессора.
...но зато если заработало, то там HBM2, а если ещё и быстрый мост или лучше 32 на одной - то просто рвёт все консьюмерские.
Цена на P102 в 5 тысяч это, конечно, соблазнительно (или это уже скам?). Но там хоть NVLink есть? Как-то скорость памяти вызывает сомнения, да еще на 4 картах через PCI Ex x4, ведь вроде бы она важнее всего в инференсе?
аренда v100 стоит 2 цента в час
FP4 и даже BF16 вообще никакой роли не играют для моделей в квантах. По ценам 32 сейчас на али с pcie адаптером 50-60к. Там больше проблема в том что не поддерживаются штуки типа flash attention, их конечно портировали умельцы, но это значит нужно использовать форки движков для инференса, возможно навайбкоженные.
ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС
нет никаких "серверных" линуксов. можно взять kubuntu и одним кликом поставить ее как с кедами, так и без.
и да, GUI там никуда не уперся, будет просто так жрать оперативку, все настраивается и из ссш
Я думаю, вы просто не видели эту разницу. Как минимум, на северных линуксах квант времени выделяется побольше раза в 3, чтобы было меньше переключений контекста.
Терминал и ssh лучшие друзья для таких сборок. Если так нужен мониторинг лучше поставить нормальную веб-панель вроде Proxmox или Portainer
Очень много статей и каналов в телеграме на эту тему.
Что-то мне кажется, что кому-то очень хочется сбыть задорого стремительно устаревающие карточки типа V100 и иже с ними... Возможно этот кто-то где-то в Китае...
Я квен 35b ,правда квантованную с "турбоквантом" запустил на nvidia 4070 - комп брал б.у. за сотку. Мне для вайбкодинга "для себя" хватает. Глючит редко.
Это в варианте cpu-moe? Я проходил такое. Правда 5060 ти 16 гб. Очень большой ttft (время первого токена) при неплохой скорости генерации. На opencode при работе с многофайловым средним проектом можно было успеть кофе попить. Докинул tesla t10 pg150 16gb (2080ti, ужатый по tdp, шине памяти, но с 16 гб). Намного комфортнее стало. Раз в 10 быстрее. Бюджет 25 тыр: 22 видеокарта, 3 тыр охлаждение от 2080ти.
А раму где такую взял? Ссылку можно?
~30 токенов в секунду
Маловато как-то для Qwen3.6 на таком железе, нет ли проблемы со сплитом pci-e? Или рейзеры скорость понижают, скорость режется?
У меня на Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf ~67-70 t/s в MTP на видяшке с пропускной способностью 1,02 TB/s.
RX7900 XTX пропускная способность вроде не на много меньше 960,0 GB/s
Qwen3.6-35B-A3B - это MoE модель (3B активных параметра), а Qwen3.6-27b - плотная (27B активных), потому разница в скорости. Но плотная заметно умнее. Автору рекомендую обновить llama.cpp до самой свежей версии, не исключено что скорость генерации повысится. У меня на 2х3090 плотный Квен (Q6) даёт до 60 ток/с, а MoE - до 140.
Расскажи пожалуйста, "до 140" это на этой Qwen3.6-35B-A3B моделе, с MTP? или без? Таких цифр не видел на таком количестве слоёв
Таких цифр не видел на таком количестве слоёв
Вчера обновил llama.cpp до версии 9837, стало ещё быстрее. Вот параметры запуска модели:
CUDA_VISIBLE_DEVICES=0,1 llama-server --host 0.0.0.0 --port 8081 -m Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf -fitt 1024 -c 262144 -ngl 999 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --no-mmap --spec-type draft-mtp --spec-draft-n-max 4
Вот лог со скоростью вывода (в основном это генерация кода, она на MTP немного быстрее, чем просто текст):
0.57.525.739 I slot print_timing: id 3 | task 0 | n_decoded = 464, tg = 154.33 t/s, tg_3s = 154.31 t/s
1.00.547.542 I slot print_timing: id 3 | task 0 | n_decoded = 945, tg = 156.76 t/s, tg_3s = 159.18 t/s
1.03.564.859 I slot print_timing: id 3 | task 0 | n_decoded = 1469, tg = 162.40 t/s, tg_3s = 173.66 t/s
1.06.568.765 I slot print_timing: id 3 | task 0 | n_decoded = 2013, tg = 167.06 t/s, tg_3s = 181.10 t/s
1.09.573.904 I slot print_timing: id 3 | task 0 | n_decoded = 2425, tg = 161.08 t/s, tg_3s = 137.10 t/s
1.12.586.396 I slot print_timing: id 3 | task 0 | n_decoded = 2817, tg = 155.92 t/s, tg_3s = 130.12 t/s
1.15.589.639 I slot print_timing: id 3 | task 0 | n_decoded = 3262, tg = 154.81 t/s, tg_3s = 148.17 t/s
1.18.591.986 I slot print_timing: id 3 | task 0 | n_decoded = 3639, tg = 151.17 t/s, tg_3s = 125.57 t/s
Карты - обычные 3090 с максимальной мощностью 350Вт, включены в плату MACHINIST X99 MR9S с процессором Xeon E5-2697 v4 и 64Г оперативы.
Не забывайте, что чем больше модель (и соответственно, больше видеокарт) - тем медленнее всё работает для типового домашнего случая, когда модель режется по слоям (и работает на GPU последовательно). Скорость будет сохраняться только если иметь физически очень быструю шину (т.е. либо все GPU на pcie x16, либо имеют свой собственный физический интерфейс обмена данными) и включить тензорный параллелизм. А без серверного железа оно не имеет смысла.
А почему АМД? 3090 не сильно вроде дороже но сильно проще в эксплуатации
Macbook M1 Max 64 GB - и стоило чуть дешевле, и производительность чуть выше.
выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).
А вот тут у меня было жесткое разочарование. В режиме чат-бота все ок, в режиме AI-assisted кодинга в IDE - уже нет. Системный промпт + проект, префилл занимает от 5 до 10 минут на копеечную правку.
Кеш очень сильно помогает. С первым запросом приходится в любом случае подождать, но потом достаточно шустро работает.
Посмотрел локальную статистику за все время - M2 MAX c oMLX выдает 51.1 tok/s генерации на Qwen3.6-35B-A3B-mxfp4 и 12.1 tok/s на Qwen3.6-27B-mxfp4 при эффективности кеша ~85%
Греется все это, конечно, знатно.
игрушки для богатеньких
я бы советовал смотреть в сторону blackhole tensorent - если хочется дешевле и мощнее. но подписка сейчас дает доступ к лучшим моделям и весьма дешево.
на кой гуй на серверном лине я так и не понял. простите
Есть же проверенные ступеньки локального ии. Самый дешёвый вариант это 1) 3070м 16гб (500гб/с). Суете в систему, сколько сможете, цена 20-25тр. Очень экономичные. 2) 3090 24гб (1000 гб/с), по скорости в 2 раза быстрее и есть nvlink (для инференса не нужен). 3) 5090 32гб (1600 гб/с) суперскорость. 4) 4090 48гб (1100гб/с) и скорость высокая и памяти вагон. Если планируется ставить 3+ видеокарты, то это однозначно тредрипер или зеон. Всякие в100 и прочие амд это мусор, не тратьте деньги и время. Эпл и амд 395 тоже мимо, сильно медленно и дорого. Можете на придумывать себе другие варианты, но все они будут или дороже или медленнее.
qwen3.6-27b в квантовании Q8 с контекстом в 250 тыс.
Для этой модели мне кажется двух видеокарт по 24гб за глаза должно хватать. И скорость тоже должна быть приемлемой. А в таком большом контексте она не путается?
Блин, это пока самая low effort статья про домашний "суперкомпьютер". Типа надо купить проц, мать и память, хотя бы 64 гига - отлично, замечательно, ладно точные модели но можно было хотя бы примерно сказать о какой платформе идет речь? Десктоп? HEDT/Рабочая станция? Б/У серверное?
Если брать серверное, то найти плату с 4, а иногда более, x16 разъемами не такое сложное дело. Это намного лучше чем страдать с райзерами и бифуркацией.
По поводу дисков, мое мнение, но если человек собирает такое, то у него наверняка дома где-то уже стоит NAS на пару (десятков) ТБ, хватит одного или двух SSD под систему.
Брать видеокарты AMD под вычисления - осуждаю. LLM на них гоняться то будет, но запускать любые другие HPC вычисления - много боли.
Аренда облачных GPU пока обходится дешевле если не гонять модели 24/7

Дело на вечер: собираем домашний ИИ-сервер