Как легко запустить модель в облаке из Hugging Face ❓

Расскажем, как развернуть нужную вам модель — в качестве примера возьмем сервис Evolution ML Inference. Вам не понадобится создавать Docker-образ, скачивать и устанавливать Environment и CUDA, а весь процесс займет пять минут. Мы засекали 👌
Пошаговая инструкция запуска модели:
1. Сперва получите доступ к модели. Для этого зарегистрируйтесь в Hugging Face, получите токен доступа (User Access Token) и создайте секрет в Secret Management, указав токен Hugging Face.
2. Создайте инференс — зарегистрируйтесь в личном кабинете Cloud.ru, перейдите в ML Inference, выберите пункт Model RUN и нажмите «Создать».
3. Введите название инференса и выберите Runtime — это фреймворк, который позволяет делать инференс. Нужный Runtime зависит от задачи: для запуска LLM советуем vLLM, для диффузионных моделей — Diffusers, а для базовых моделей подойдет Transformers. Также укажите версию фреймворка, по умолчанию выставлена последняя.
4. Кликните «Добавить модель из Hugging Face» и выберите секрет с токеном — его вы получили на шаге 1.
5. Нажмите «Добавить», поле «Задача модели» заполнится автоматически.
6. Введите дополнительные параметры для каждого фреймворка. Допустим, у vLLM советуем указать: «Enable prefix caching», «Enable chunked prefix», «KV cache type: FP8».
7. Определитесь с нужным объемом памяти GPU и количеством карт. Калькулятор подскажет, сколько ресурсов понадобится для запуска модели, для которой вы указали адрес репозитория.
8. Настройте автомасштабирование: минимальное и максимальное количество экземпляров, запросов в секунду, тип масштабирования, к примеру, Concurrency или RPS.
9. Если нужно, активируйте опцию «Аутентификация» и «Логирование запросов».
Все готово, осталось нажать «Создать», и инференс запустится в течение нескольких минут. Нужно только дождаться, когда инференс перейдет в статус «Запущено» и появится публичный URL для запроса к модели.
Как итог — модель запущена за пять минут, мощности для ее работы выделяются автоматически, а вы платите только за использованные по факту ресурсы. Если хотите запустить кастомную модель, например, с использованием Triton Inference Server, попробуйте Docker RUN в Evolution ML Inference.
















