
Комментарии 2
Правильней говорить для LLM-моделей. У LBS/CESP нет понятия модель;
LBS/CESP системам вообще не нужен GPU на сервере
Облачные решения (именно VM c GPU) хороши не для всех задач. Основная проблема - лейтенси между CPU и GPU, доступность CPU и невозможность управлять его параметрами, например, frequency scaling (performance), выключить C-states.
Кроме того, я предполагаю, что облачные провайдеры делают дополнительный энфорсинг безопасности памяти (meltdown, spectre, привет), что приводит к тому, что скорость для многих задач инференса (не тренировки) далека от тех, которые вы можете получить на полноценном железе.
Я занимаюсь инференсом на видео на базе Nvidia DeepStream, и я могу сказать 100% что брать облачную VM безотносительно GPU (я пробовал AWS, Akamai, Paperspace, Vast.AI, Immers cloud) для таких задач - это деньги на ветер: GPU просто не загружается до 100% (я практически уверен, что из-за вышеуказанных настроек CPU). К сожалению, выяснить детально что идет не так без доступа к хосту затруднительно, но нигде это не работает с такой же скоростью как на железе. В итоге, моя лэптопная 4070 часто заруливает A6000, RTX4090, A10, L4.
Почему я думаю что дело в frequency scaler, C-states и т.п. Был момент, когда мы работали с AMD Alveo. Дело было на настоящем железе. Однако, пока не были выключены все крутилки энергоэффективности CPU и все параметры поставлены в максимальную производительность, отключены C-states, карта демонстрировала весьма убогую производительность.
Однажды клиент выделял VM с RTX A6000 Ada на своем железе (не знаю какой гипервизор), но из VM можно было управлять настройками ядер CPU. После перевода frequency scaler-а в performance производительность выросла до рассчитанной на настоящем железе. До перевода, все было невероятно грустно.
Если у Вас задача работы с картинками (а не видео) или LLM, то все вышеуказанное неприменимо, потому что GPU работает значительное время и переключение обработки данных между GPU и CPU не происходит с высокой интенсивностью.
В случае же видео-аналитики и компьютерного зрения, модели работают быстро и CPU все время должен быть на подхвате для работы с метаданными. В этих задачах у облачных VM все паршиво.

Тренировка, в зависимости от баланса операций CPU/GPU, может не разгоняться до уровня как на настоящем железе, но это более редкая история и решается твикингом.
Если среди комментаторов есть кто-то с похожим опытом, буду рад услышать ваши мысли.
Как выбрать облачный GPU-инстанс для развертывания ИИ-моделей: практическое руководство