Keithla 31 окт 2023 в 15:58

Как работают Model Serving инструменты изнутри. Пишем свой на Python и Docker с нуля

Средний

15 мин

4.3K

Python*Машинное обучение*

Туториал

Комментарии 4

ivankudryavtsev 31 окт 2023 в 16:18

Здравствуйте, нормальная реализация должна поддерживать складывание запросов в очередь, инференс вне потока веб-сервера и поллинг результата. Ваша «архитектура» совсем не жизнеспособна за пределами линейной регрессии и минимальной нагрузки.

Это может работать только с внешним диспетчером очереди, который будет в вашу архитектуру джобы закидывать. Зачем ей тогда RestAPI?

И еще нет батчинга, что для ряда моделей дает буст.

Keithla 31 окт 2023 в 16:55

Здравствуйте, вы правы, этот код не жизнеспособен за пределами очень простых моделей и минимального количества пользователей. Но цель этой статьи показать основную идею для тех, кто хотел бы начать или продолжить реализацию Model Serving инструмента. При дальнейшей реализации, разработчики уже смогут добавить очередь, gpu поддержку, репликацию, батчинг и т.д., все, что нужно для полноценной работы. Поэтому, я рекомендовал использвать bentoml и seldon core и не брать этот код в production.

RestAPI здесь нужен затем, что servingml server, работает не зависимо от клиента, где цель клиента только в том, чтобы передать архив проекта на сервер, который уже сам должен распределять задачи. Опять же, это не я придумал, а рассказал, то как работают данные фреймворки, в первую очередь mlrun.

Сам же servingml server может быть доведен до того, чтобы использовать его в kubernetes, добавив в helm.

lazy_val 31 окт 2023 в 16:32

Этот код не может быть в production

советую использовать seldon core с его экосистемой

используйте bentoml

Можете пожалуйста пояснить чего в servingml принципиально не хватает чтобы пользоваться им в продуктивной среде?

Выше @ivankudryavtsev высказал несколько замечаний, хотелось бы услышать Вашу точку зрения на этот счет

Keithla 31 окт 2023 в 16:57

Как раз таки замечания @ivankudryavtsev объясняют почему нельзя использовать данный код в production. Он не достаточно надежен для этого

Зарегистрируйтесь на Хабре, чтобы оставить комментарий