Mac Studio — ок вариант, согласен. Для локальных экспериментов, пэт проектов и маленьких команд удобно и выгодно. Но в статье у меня другой сценарий на ~100 000 диалогов в день. Тут и требования по SLA, отказоустойчивости, масштабированию. Там не столько "настроить за 5 минут" надо, а параллельность, управляемость и стоимость токена при росте трафика обеспечить.
4090/5090 дешевле, но это другой класс железа уже. Памяти меньше, нужен шардинг по нескольким GPU и больше компромиссов по надёжности. Поэтому в табличку сознательно не добавил
Mac Studio — ок вариант, согласен. Для локальных экспериментов, пэт проектов и маленьких команд удобно и выгодно. Но в статье у меня другой сценарий на ~100 000 диалогов в день. Тут и требования по SLA, отказоустойчивости, масштабированию. Там не столько "настроить за 5 минут" надо, а параллельность, управляемость и стоимость токена при росте трафика обеспечить.
4090/5090 дешевле, но это другой класс железа уже. Памяти меньше, нужен шардинг по нескольким GPU и больше компромиссов по надёжности. Поэтому в табличку сознательно не добавил