Вы эти продукты сами то щупали? Базис который сертифицируется который нонче Энтерпрайз откопанная стюардесса openvcloud, которую похоронили на гите лет уже почти дцать. Любой софт в энтерпрайзе стоит денег, либо вы отдаете денег за саппорт вендоу либо инженерам которые умеют в опенсорц. И вот кого из местных вы в один рядок с варью и редхатом решили поставить? Я про уровень техничнский , а не борзометр на стоимость своих поделок, если они вообще свои.
Вы пишете, что «MIG фактически делит A100/H100 на несколько независимых частей… Недостаток — низкая гибкость. Жёсткий лимит в 7 партиций нам не подходит — иногда нужно поселить 10+ мелких моделей на одной карте». А далее утверждаете, что вашим решением можно дробить GPU до 8 виртуальных экземпляров. Неужели все эти ухищрения только ради одного дополнительного профиля?
Также неясно, с чем именно сравнивались метрики «GPU utilization выросла с 23% до 78%» и «latency увеличилась всего на 7%». Это по отношению к прямому пробросу PCI-карты (passthrough)? Почему нет сравнения с MIG?
Как у вас решена совместимость с драйверами CUDA/NVIDIA? Ваш слой работает поверх стандартного runtime/драйверов или требует модификаций/патчей?
Про binpacking: вы уплотняете нагрузки по памяти (VRAM)? А как учитывается загрузка вычислительных блоков (SM)? Без контроля за SM несколько «виртуальных GPU» ведь могут конкурировать за одни и те же ресурсы.
И ещё: cloudru-vgpu-scheduler очень напоминает HAMi. Правильно ли понимаю, что в итоге на один MIG-профиль у вас садится несколько клиентских workload’ов?
Хоть и люто ненавижу, но вообще про pacemaker k8s поклонение слышало? Вот прям до кубера никто не решал задач скейла, ha, балансировки да?
Странный вопрос к компании которая, не любит кровавый Энтерпрайз :)
Эта статья новогодний прикол?
Вы эти продукты сами то щупали? Базис который сертифицируется который нонче Энтерпрайз откопанная стюардесса openvcloud, которую похоронили на гите лет уже почти дцать. Любой софт в энтерпрайзе стоит денег, либо вы отдаете денег за саппорт вендоу либо инженерам которые умеют в опенсорц. И вот кого из местных вы в один рядок с варью и редхатом решили поставить? Я про уровень техничнский , а не борзометр на стоимость своих поделок, если они вообще свои.
Да все звонки под запись, и внятное тз против балабольства
Хоть бы написали для чего еще один клон, ой простите дистрибутив.
Что вы хотите если большинство новых модных штук пишут без головы, причем новое Легаси там растёт еще быстрее.
Напоминает овес с мегафлоу
Теперь пишем обертку на файлом конфигурации и вуаля новый networkmanager.
Что за свой гипервизор?
Вроде те кому полагается елдак должны и так об это знать.
С трудом дочитал до конца, имхо начинать нужно с того а зачем козе баян, выроджденые примеры в начале ну такое.
Надо тебе тебе неопределенный список параметров, так передай его именованным списком или словарем params.
Не, миллионы хомячков не могут ошибаться, это как с типизацией :)
Или self, можно использовать вместо него что угодно, но договорились что его.
Redhat малоизвестный с ovn почему стороной обошли?
О божественный кубер на волшебных технологиях. И вот прям тошнит от примеров на всяких магазинах и платежном говне.
А для танкистов в чем Профит от этих вот fastcroot итд. Систем д и Нетворк менеджер пожалуй самые кривые решения .
Автор fluent видел?
Вы пишете, что «MIG фактически делит A100/H100 на несколько независимых частей… Недостаток — низкая гибкость. Жёсткий лимит в 7 партиций нам не подходит — иногда нужно поселить 10+ мелких моделей на одной карте». А далее утверждаете, что вашим решением можно дробить GPU до 8 виртуальных экземпляров. Неужели все эти ухищрения только ради одного дополнительного профиля?
Также неясно, с чем именно сравнивались метрики «GPU utilization выросла с 23% до 78%» и «latency увеличилась всего на 7%». Это по отношению к прямому пробросу PCI-карты (passthrough)? Почему нет сравнения с MIG?
Как у вас решена совместимость с драйверами CUDA/NVIDIA? Ваш слой работает поверх стандартного runtime/драйверов или требует модификаций/патчей?
Про binpacking: вы уплотняете нагрузки по памяти (VRAM)? А как учитывается загрузка вычислительных блоков (SM)? Без контроля за SM несколько «виртуальных GPU» ведь могут конкурировать за одни и те же ресурсы.
И ещё: cloudru-vgpu-scheduler очень напоминает HAMi. Правильно ли понимаю, что в итоге на один MIG-профиль у вас садится несколько клиентских workload’ов?
Wget наверное делал слишком пухлым дистрибутив.
Откуда в образе ping tcpdump итд? Если их доставлять это же опять зависимости которые надо проверять с точки зрения ИБ нет?