Articles / Profile of Myskat

Александр Подмосковный @Myskat_90

User

ProfileArticles4PostsNewsComments12

Myskat_90 May 16 at 08:00

Распределённый инференс и шардирование LLM. Часть 3: настройка авторизации и интеграция с Open WebUI

Hard

9 min

4.2K

Флант corporate blogМосковский кредитный банк corporate blogArtificial IntelligenceDevOps * IT Infrastructure *

Tutorial

Мы с вами подобрались к заключительной части статьи-инструкции об организации распределённого инференса и шардирования LLM в домашних условиях. Осталось совсем чуть-чуть — в финальной главе разберёмся, как развернуть Open WebUI через Helm и связать его с нашим Ray-кластером. Это даст возможность настроить авторизацию и удобный интерфейс для взаимодействия с нашей моделью.

В конце статьи попросим домашнюю LLM подвести итоги всей проделанной работы, а также поговорим о планах по развитию проекта.

+17

Myskat_90 May 14 at 08:00

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Hard

14 min

6.3K

Московский кредитный банк corporate blogФлант corporate blogIT Infrastructure * DevOps * Artificial Intelligence

Tutorial

Продолжаем пошагово разбираться с ответом на вопрос о том, как эффективно работать с передовыми LLM, используя доступное оборудование и распределённые вычисления.

В первой части статьи мы подготовили всё необходимое для развёртывания распределённого инференса с Ray Serve и vLLM. Сегодня этим и займёмся. Мы напишем скрипт vLLM, используем Ray Serve, чтобы предоставить внешний HTTP API, а также настроим KubeRay Cluster и развернём в нём Gemma 3.

Вперёд!

+29

Myskat_90 May 12 at 08:35

Распределённый инференс и шардирование LLM. Часть 1: настройка GPU, проброс в Proxmox и настройка Kubernetes

Hard

14 min

12K

Флант corporate blogМосковский кредитный банк corporate blogArtificial IntelligenceKubernetes * DevOps *

Tutorial

Когда модель DeepSeek R1 стала широко обсуждаться в сообществе, я заинтересовался, можно ли эффективно использовать её и другие крупные модели в домашних условиях, не прибегая к дорогостоящим облачным сервисам. Поскольку DevOps и инфраструктурой я увлекаюсь уже несколько лет, у меня постепенно сформировалась домашняя лаборатория, на которой я и решил проверить эту идею.

Эта статья в трёх частях — результат моего опыта в решении этой задачи. Внутри вас ждёт пошаговое руководство по реализации бюджетного распределённого инференса с использованием Ray Serve, vLLM, Kubernetes, Proxmox и других технологий. В первой части мы разберём настройку GPU и его проброс в Proxmox, развернём Kubernetes-кластер, установим GPU Operator и KubeRay Operator.

Поехали!

+58

Myskat_90 Aug 5 2024 at 10:39

Облачная инфраструктура в помощь продуктовым командам — как мы это делаем в МКБ

Easy

7 min

1.2K

Московский кредитный банк corporate blogDevOps *

Case

Привет, я Александр Подмосковный, руководитель Центра компетенций (BPM, CRM и SAS-системы) в Московском кредитном банке.

В своей статье я расскажу, как с помощью облачной инфраструктуры и dev-платформы разработчики ПО могут получить инструменты для автоматизации развертывания и тестирования, что ускорит выпуск новых версий продукта, а также о том, как компании могут повысить надежность и безопасность ИТ-систем за счет централизованного управления, мониторинга и автоматизации процессов.

Распределённый инференс и шардирование LLM. Часть 3: настройка авторизации и интеграция с Open WebUI

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Распределённый инференс и шардирование LLM. Часть 1: настройка GPU, проброс в Proxmox и настройка Kubernetes

Облачная инфраструктура в помощь продуктовым командам — как мы это делаем в МКБ

Information

Specialization