NagaevDen24 ноя 2025 в 17:04

Как выбрать между облаком, арендой GPU и своим железом для LLM-систем

Средний

5 мин

9.5K

Искусственный интеллектМашинное обучение * Облачные сервисы * Облачные вычисления * IT-инфраструктура *

Из песочницы

Комментарии 7

arniksup 25 ноя 2025 в 05:31

Спасибо. Буду отправлять статью коллегам, кто топит за переход на "собственные нейронки".

Ulyanov-Pavel 25 ноя 2025 в 09:51

Только не очень понятно, почему под Qwen2.5-32B-Instruct используется H100, а не, к примеру, 4090/5090?

Которые при желании можно взять по 2–3$ в сутки?

NagaevDen 4 дек 2025 в 13:11

4090/5090 дешевле, но это другой класс железа уже. Памяти меньше, нужен шардинг по нескольким GPU и больше компромиссов по надёжности. Поэтому в табличку сознательно не добавил

Ulyanov-Pavel 4 дек 2025 в 15:16

Но это же неплохая альтернатива!

Если потребление постоянно, то смысл точно есть.

exelens 27 ноя 2025 в 05:07

А если подумать о том, что тот же Мак Студио М4 будет работать минимум лет 5 спокойно, и что он тянет и такой квен, и более мощные модели, и что настроить можно за 5 минут через LM Studio... выбор, мне кажется, очевиден.

NagaevDen 4 дек 2025 в 13:13

Mac Studio — ок вариант, согласен. Для локальных экспериментов, пэт проектов и маленьких команд удобно и выгодно. Но в статье у меня другой сценарий на ~100 000 диалогов в день. Тут и требования по SLA, отказоустойчивости, масштабированию. Там не столько "настроить за 5 минут" надо, а параллельность, управляемость и стоимость токена при росте трафика обеспечить.

exelens 4 дек 2025 в 13:29

В таком случае вопросов конечно нет и быть не может. Спасибо за ответ

Зарегистрируйтесь на Хабре, чтобы оставить комментарий