
Обучение ML-модели — это только первый шаг к решению бизнес-задачи. Далее необходимо создать эффективный механизм для развертывания модели в производственной среде и разработать serving-стратегию, которая сможет масштабироваться в соответствии с текущим спросом.
В этой статье мы рассмотрим различные model serving стратегии и узнаем о технологиях, способных значительно повысить их эффективность. Мы рассмотрим три варианта организации model serving системы и сравним их производительность. Наша реализация будет ориентирована на инференс с помощью ЦП, но те же самые концепции могут быть применены и к ГП, поскольку предлагаемые здесь технологии (ONNX Runtime) поддерживают различные аппаратные платформы, включая графические и нейропроцессоры.