
Комментарии 7
Спасибо. Буду отправлять статью коллегам, кто топит за переход на "собственные нейронки".
Только не очень понятно, почему под Qwen2.5-32B-Instruct используется H100, а не, к примеру, 4090/5090?
Которые при желании можно взять по 2–3$ в сутки?
А если подумать о том, что тот же Мак Студио М4 будет работать минимум лет 5 спокойно, и что он тянет и такой квен, и более мощные модели, и что настроить можно за 5 минут через LM Studio... выбор, мне кажется, очевиден.
Mac Studio — ок вариант, согласен. Для локальных экспериментов, пэт проектов и маленьких команд удобно и выгодно. Но в статье у меня другой сценарий на ~100 000 диалогов в день. Тут и требования по SLA, отказоустойчивости, масштабированию. Там не столько "настроить за 5 минут" надо, а параллельность, управляемость и стоимость токена при росте трафика обеспечить.
Как выбрать между облаком, арендой GPU и своим железом для LLM-систем