Как Shared GPU позволяет дешевле разворачивать ML- и DL-модели в облаке ☁️⚙️

Shared GPU — технология, которая позволяет вместо аренды целой видеокарты арендовать ее часть. Это удобно для запуска небольших моделей: так, если вам нужно только 12 ГБ, вы арендуете именно их, а не платите за все 80 ГБ. А еще вы сможете перераспрелять ресурсы GPU в зависимости от нагрузки и не платить, когда нет запросов.
❓ Как все это работает
Shared GPU делит ресурсы видеокарты на несколько подов, и каждая модель запускается на отдельном. Благодаря этому можно развернуть несколько небольших моделей на одной GPU, а не арендовать для каждой отдельную видеокарту и платить за ресурсы, которые будут простаивать.
Контейнеры, на которых размещены модели, изолированы друг от друга. Если с одним из них что-то произойдет, сервисы на других подах продолжать не упадут.
🚀 Преимущества, которые дает Shared GPU:
Автомасштабирование и скейлинг в ноль. Если запросов много, дополнительные мощности выделятся автоматически. А если запросов нет дольше установленного времени, контейнер с моделью ставятся на паузу, и тарификация прекращается.
Pay-as-you-go. Платите только за те мощности, которые используете, а не за целую GPU или время простоя.
Рациональное использование мощностей. Для каждого проекта не нужно закупать отдельную GPU. Если ресурсы временно не используются, их можно перераспределить на другие задачи.
Гибкая настройка и масштабируемость. Есть возможность менять количество выделенных на каждый под ресурсов, перераспределять их в зависимости от нагрузки, развертывать несколько моделей на одной видеокарте.
В Evolution ML Inference по такой технологии можно разместить небольшие ML- и DL-модели на облачных мощностях. Попробуйте: разверните свое решение или выберите из каталога одну из моделей, которая уже готова к инференсу.
















