Keithla 1 мая в 21:24

Как бессерверные gpu делают AI доступным. Введение в платформу PrimeWay

Средний

10 мин

2.8K

Блог компании PrimeWayDevOps*Python*Машинное обучение*

Туториал

Комментарии 4

ivankudryavtsev 1 мая в 22:09

Поскольку у GPU фиксированные ресурсы CPU/RAM, а не переменные - эффективная модель мультиплексирования без выгрузки сомнительна. А с выгрузкой еще более сомнительна. Или вы клиентов нещадно чаржите или эффективность решения под большим вопросом. Для нормальной модели мультиплексирования на условную L4 нужно типа 128 GB RAM, а не 24. В общем, бессерверность удобна только из-за снижения административных затрат, но не повышает особо эффективность использования ресурса. А с учетом того, что поделить GPU между тенантами толком нельзя (да я знаю про виртуализацию некоторых моделей на меньшие куски) эта модель не очень позволяет денег сэкономить.

Ну и насчет настройки за дни это Вы преувеличиваете. Могу показать что от чистой Ubuntu до DeepStream в докере проходит не более 15 минут даже в ручном режиме по мурзилке.

Upd. Хотя вот они в Nvidia что-то придумали, надо потыкать. Вопрос аккаунтинга все еще не понятен.

Keithla 2 мая в 19:59

Здравствуйте! Спасибо за комментарий.

Я понимаю о чем вы говорите, но это было бы применимо, если бы мы запускали несколько тенантов на одном GPU с помощью MIG или мультиплексирования, но это не наш кейс. Правда, не совсем понимаю, почему вы так решили). На одной машине с выбранным кол-во gpu (1-8) запускается только одна задача, соответственно по ресурсам, это также как если бы вы запустили виртуальный сервер с gpu в яндексе.

По ram/cpu, например, L4, которую вы указали, 24 гб ссылается на gpu память (vram), касательно ram для сервера, прямо сейчас это 48 гб и 10 vcpu, но так как у нас нет мультиплексирования, то 128 GB RAM не является необходимостью.

Касатально настройки, идет отсылка не просто к запуску контейнера на машине, что не является продакшн решением, что действительно, можно сделать очень быстро, а именно настройки окружения, которое будет способно выдерживать меняющуюся нагрузку, а именно автомасштабирование в kubernetes со всеми сопутствующими.
На это действительно уйдет не пару дней. Более того, большие облака не любят, когда такое происходит, поэтому вводят "санкции" в виде ошибки о том, что все gpu заняты, подталкивая иметь постоянно запущенные машины, чтобы больше тратили.

Опять же просто запустить задачу на одном сервере без автомасштабирвония к нулю, ведет к переиспользованию ресурсов, когда они вам не нужны.

По поводу оплаты, у нас посекундая тарификация с ценами указанными на платформе.

Если у вас остались вопросы, пожалуйста, буду рад ответить ;)

ivankudryavtsev 2 мая в 20:18

Спасибо за ответ. Т.е. тенант с низкой постоянной нагрузкой все так же будет платить за утилизацию одного инстнса, например, с L4. В этом смысле ваш сервис делает то же самое, что и у других, но под вашим кастомным фасадом. У Amazon есть, к примеру, ECS поверх EC2.

Keithla 3 мая в 13:04

Да, вы правы, все таки упор у нас на задачи, которым нужны как минимум все ресурсы одной gpu, так как, если быть честными, сложно найти сейчас задачи с низкой нагрузкой. Здесь можно использовать поменьше gpu у нас, например, RTX 2000 Ada с 16 vram.
По поводу других, все таки, у нас идет ориентир на Gen AI, уже есть no-code деплой, сейчас активно работаем над no-code дообучением

Зарегистрируйтесь на Хабре, чтобы оставить комментарий