Не сталкивались с зависанием моделей в vLLM? Эндпоинты /metrics /v1/models отвечают, но модель молчит. При этом dxgtop показывает постоянное потребление GPU 17W при 100% загрузке.
Для однопотока Mac Studio, если финансы позволяют. Успели купить одну мак студию по немного вменяемой цене, потом докупили Asus GX10. На маке скорость генерации в однопотоке в среднем вдвое выше, чем на Nvidia. На ютубе есть у зарубежного блоггера сравнение трёх платформ по скорости и энергопотреблению. AMD Strix Halo на последнем месте. В однопотоке выигрывает Мак, на многопоточных бенчах Nvidia GB10 до 2к токенов в секунду выдаёт. И энергопотребление у AMD самое высокое среди этих трёх. Но огромное преимущество в цене у АМД, даже Asus на нвидии приблизительно на 100к дороже получается, что уж говорить про мак.
Не сталкивались с зависанием моделей в vLLM? Эндпоинты /metrics /v1/models отвечают, но модель молчит. При этом dxgtop показывает постоянное потребление GPU 17W при 100% загрузке.
Для однопотока Mac Studio, если финансы позволяют. Успели купить одну мак студию по немного вменяемой цене, потом докупили Asus GX10. На маке скорость генерации в однопотоке в среднем вдвое выше, чем на Nvidia. На ютубе есть у зарубежного блоггера сравнение трёх платформ по скорости и энергопотреблению. AMD Strix Halo на последнем месте. В однопотоке выигрывает Мак, на многопоточных бенчах Nvidia GB10 до 2к токенов в секунду выдаёт. И энергопотребление у AMD самое высокое среди этих трёх. Но огромное преимущество в цене у АМД, даже Asus на нвидии приблизительно на 100к дороже получается, что уж говорить про мак.
Наконец то они поняли это.