Обновить

Как выбрать между облаком, арендой GPU и своим железом для LLM-систем

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели9.2K
Всего голосов 4: ↑4 и ↓0+5
Комментарии7

Комментарии 7

Спасибо. Буду отправлять статью коллегам, кто топит за переход на "собственные нейронки".

Только не очень понятно, почему под Qwen2.5-32B-Instruct используется H100, а не, к примеру, 4090/5090?

Которые при желании можно взять по 2–3$ в сутки?

4090/5090 дешевле, но это другой класс железа уже. Памяти меньше, нужен шардинг по нескольким GPU и больше компромиссов по надёжности. Поэтому в табличку сознательно не добавил

Но это же неплохая альтернатива!

Если потребление постоянно, то смысл точно есть.

А если подумать о том, что тот же Мак Студио М4 будет работать минимум лет 5 спокойно, и что он тянет и такой квен, и более мощные модели, и что настроить можно за 5 минут через LM Studio... выбор, мне кажется, очевиден.

Mac Studio — ок вариант, согласен. Для локальных экспериментов, пэт проектов и маленьких команд удобно и выгодно. Но в статье у меня другой сценарий на ~100 000 диалогов в день. Тут и требования по SLA, отказоустойчивости, масштабированию. Там не столько "настроить за 5 минут" надо, а параллельность, управляемость и стоимость токена при росте трафика обеспечить.

В таком случае вопросов конечно нет и быть не может. Спасибо за ответ

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации