Pull to refresh

Comments 11

В контексте данного примера, я бы рассмотрел AM4 + 64GB RAM + amd mi50 (32gb), ценник будет примерно 100к, а эффективность выше V100 16GB

mi50 уже как год (или около того) не поддерживаются ROCm. Tesla V100 на уровне драйверов еще поддерживается.

Даже читать не нужно, все статьи примерно одинаково начинаются: "бюджетно запустим на одном CPU" и кончаются: "не получилось: ограниченный контекст и черепашья скорость генерации, практической пользы 0, но для исследования полезно". Вот полезный инсайт: не инвестируйте в локальный запуск моделей на GPU, это будет либо непрактично либо ооочень не бюджетно. Подождите специализированных NPU, сейчас много компаний работает над этим и это самый логичный шаг развития железа под ИИ. Универсальность GPU нужна только исследователям для обучения моделей, а инференс можно делать гораздо дешевле.

Нормальный контекст и нормальная скорость, учитывая бюджет. Цель была показать что можно за эти деньги на этом железе, а не то что 100к заменят вам облако.

Кроме доказать что можно, какая практическая польза то? Заплатите 20$ и пользуйтесь облаком сколько-то лет. Ваша локальная модель все равно больше не нагенерирует чем в ультра-бюджетных тарифах.

В статье и видео я описал практическое применение (а пользу каждый сам для себя определяет), если устраивает и хочется иметь приватный ИИ то можно собрать, данные есть. В ином случае использовать облако.

Что-то, вцелом, не супер, по сравнению с привычным уже...

Мне кажется выгодней взять майнинговую материнскую плату на 6-8 слотов pcie (с полными pcie) и поставить соответственно 6-8 ускорителей. да, нужен хороший БП, но и их можно найти не дорого с разборки ферм. При этом ценник материнки в районе 1000-2500 + недорогой проц и плашка ddr3 (или 4) на 16-32 гига. На сэкономленные деньги можно взять ускоритель. Но обязательно искать мать с x16 на pcie, есть модели с x8.

Кто минуснул? Обоснуйте свой минус. А то не согласен, и в кусты.

Я не ставил минус, но идея вызывает сомнения. Я уже что-то подобное делал здесь: https://habr.com/ru/articles/1019940/
Но там было 3 RTX 3090. С prefill есть небольшие задержки, но как мне кажется проблема в другом, хотя надо бы прям на деле все это выяснить.
Мои сомнения возникают из того что я запускаю gemma-4-31b-it на 3 RTX 3090 и она выдает 40т/с что немного, а на 6 картах для майнинга скорее всего будет прям значительно меньше. Хотя, если использовать какую-нибудь MoE то может быть и достаточно.
Надо проверять.

Можно рассмотреть CMP 50HX с удвоенной до 20 гигов памятью, они встречаются на барахолках.


А ещё ходят убедительные слухи, что некто смог разблокировать все 40 гигов памяти у CMP 170HX...

Sign up to leave a comment.

Articles