Статьи / Профиль Myskat

Александр Подмосковный@Myskat_90

Пользователь

Рейтинг

Подписчики

ПрофильСтатьи5ПостыНовостиКомментарии12

Myskat_90 8 апр в 09:31

DRAматургия GPU в Kubernetes: зачем нужен DRA, если Device Plugin работает? Разбираем грабли AI-инфраструктуры

Сложный

15 мин

6.1K

Блог компании ФлантDevOps * Kubernetes * Искусственный интеллектIT-инфраструктура *

Аналитика

Device plugin умеет выделять только целочисленные ресурсы: одну карту, две карты — или одну MIG‑партицию, но не «полкарты» и не «30% памяти». В реальности же нужны доли памяти, учёт топологии, предсказуемые обновления и изоляция, а не пулы лейблов и кастомные шедулеры. Разобрал, почему индустрия устала от костылей, как это проявляется в настоящем AI‑кластере и что именно пытается исправить DRA. Читать, если хотите управлять ресурсами явно, а не тушить пожары по расписанию.

Понять, куда двигаться

+14

Myskat_90 16 мая 2025 в 08:00

Распределённый инференс и шардирование LLM. Часть 3: настройка авторизации и интеграция с Open WebUI

Сложный

9 мин

11K

Блог компании Московский кредитный банкБлог компании ФлантIT-инфраструктура * DevOps * Искусственный интеллект

Туториал

Мы с вами подобрались к заключительной части статьи-инструкции об организации распределённого инференса и шардирования LLM в домашних условиях. Осталось совсем чуть-чуть — в финальной главе разберёмся, как развернуть Open WebUI через Helm и связать его с нашим Ray-кластером. Это даст возможность настроить авторизацию и удобный интерфейс для взаимодействия с нашей моделью.

В конце статьи попросим домашнюю LLM подвести итоги всей проделанной работы, а также поговорим о планах по развитию проекта.

+17

Myskat_90 14 мая 2025 в 08:00

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Сложный

14 мин

15K

Блог компании Московский кредитный банкБлог компании ФлантIT-инфраструктура * DevOps * Искусственный интеллект

Туториал

Продолжаем пошагово разбираться с ответом на вопрос о том, как эффективно работать с передовыми LLM, используя доступное оборудование и распределённые вычисления.

В первой части статьи мы подготовили всё необходимое для развёртывания распределённого инференса с Ray Serve и vLLM. Сегодня этим и займёмся. Мы напишем скрипт vLLM, используем Ray Serve, чтобы предоставить внешний HTTP API, а также настроим KubeRay Cluster и развернём в нём Gemma 3.

Вперёд!

+29

Myskat_90 12 мая 2025 в 08:35

Распределённый инференс и шардирование LLM. Часть 1: настройка GPU, проброс в Proxmox и настройка Kubernetes

Сложный

14 мин

28K

Блог компании ФлантБлог компании Московский кредитный банкИскусственный интеллектKubernetes * DevOps *

Туториал

Когда модель DeepSeek R1 стала широко обсуждаться в сообществе, я заинтересовался, можно ли эффективно использовать её и другие крупные модели в домашних условиях, не прибегая к дорогостоящим облачным сервисам. Поскольку DevOps и инфраструктурой я увлекаюсь уже несколько лет, у меня постепенно сформировалась домашняя лаборатория, на которой я и решил проверить эту идею.

Эта статья в трёх частях — результат моего опыта в решении этой задачи. Внутри вас ждёт пошаговое руководство по реализации бюджетного распределённого инференса с использованием Ray Serve, vLLM, Kubernetes, Proxmox и других технологий. В первой части мы разберём настройку GPU и его проброс в Proxmox, развернём Kubernetes-кластер, установим GPU Operator и KubeRay Operator.

Поехали!

+58

Myskat_90 5 авг 2024 в 10:39

Облачная инфраструктура в помощь продуктовым командам — как мы это делаем в МКБ

Простой

7 мин

2.2K

Блог компании Московский кредитный банкDevOps *

Кейс

Привет, я Александр Подмосковный, руководитель Центра компетенций (BPM, CRM и SAS-системы) в Московском кредитном банке.

В своей статье я расскажу, как с помощью облачной инфраструктуры и dev-платформы разработчики ПО могут получить инструменты для автоматизации развертывания и тестирования, что ускорит выпуск новых версий продукта, а также о том, как компании могут повысить надежность и безопасность ИТ-систем за счет централизованного управления, мониторинга и автоматизации процессов.

DRAматургия GPU в Kubernetes: зачем нужен DRA, если Device Plugin работает? Разбираем грабли AI-инфраструктуры

Распределённый инференс и шардирование LLM. Часть 3: настройка авторизации и интеграция с Open WebUI

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Распределённый инференс и шардирование LLM. Часть 1: настройка GPU, проброс в Proxmox и настройка Kubernetes

Облачная инфраструктура в помощь продуктовым командам — как мы это делаем в МКБ

Информация

Специализация