В SpaceWeb выкатили новую порцию полезных фич и обновлений в S3! Теперь к сервису можно подключаться не только через утилиту, но и все нужные настройки получится установить напрямую и через панель управления — сделали всё для удобства пользователя.
Основные апдейты:
открыли доступ к самостоятельному управлению файлами — их можно и загружать, и удалять;
подключили чекбоксы — документы удобно просматриваются компактным списком и по нему можно проводить поиск, что особенно важно при огромном количестве данных в S3;
из хранилища теперь можно получить прямой адрес загруженного файла — это поможет в дальнейшем управлении и работе с ним.
3 неочевидных способа сэкономить на инференсе ML-модели в облаке кроме автоскейлинга 💸💸💸
Привет! Сегодня хотим поделиться тремя полезными способами сэкономить на инференсе, которые работают в облаке, причем, не только у нас (что? да!).
А то ведь как бывает: запустишь свою крутую LLM-ку в продакшен, а счет прилетает такой, что хочется отключить обратно. Горизонтальный скейлинг не всегда выход. Но дешевле — не значит менее производительно. Мы приведем алгоритмы для сервиса Evolution ML Inference, но их можно адаптировать для любого провайдера.
Способ 1. Использовать Sleep Mode vLLM 🔧
Способ работает только для языковых моделей (LLM), таких как Qwen, LLaMA, Mistral и других, запускаемых через vLLM. С диффузионными моделями, CV и временными рядами фокус не прокатит. Sleep Mode временно выгружает веса модели из GPU в RAM, освобождая до 90% видеопамяти. А раз GPU-ресурс не используется, то и не тарифицируется. «Разбудить» модель можно за секунды и без полной перезагрузки.
Что делать:
1. Запустите модель в ML Inference с runtime vLLM.
2. Включите режим разработки:
VLLM_SERVER_DEV_MODE=1
3. Добавьте флаг:
--enable-sleep-mode
4. Управляйте через HTTP:
⦁ POST /sleep?level=1 — выгрузить веса, сохранить возможность быстрого запуска.
⦁ POST /wake_up — вернуть модель в активное состояние.
Когда применять:
В сценариях с неравномерной нагрузкой (например, днём активность, ночью — нет).
Между итерациями RLHF, когда нужно освободить GPU.
Способ 2. Serverless + Scale to Zero 🔧
Способ подходит вообще для всего. Суть в том, что контейнер с моделью останавливается при отсутствии запросов, освобождая все выделенные ресурсы (GPU, RAM, CPU). Кеш модели сохраняется, но тоже не тарифицируется в период простоя — PROFIT! При поступлении нового запроса модель запускается из кеша — и тут, мы, конечно, имеем проблему с задержкой при «холодном старте». Но пара секунд ожидания экономит нам сотни тысяч.
Что делать:
1. При создании инференса в ML Inference:
⦁ Установите min_replicas = 0.
⦁ Выберите тип масштабирования: RPS или Concurrency.
2. Убедитесь, что Idle-таймаут = 40 сек.
Когда применять:
Для MVP, демо, внутренних API.
Сценариев с нерегулярной нагрузкой (например, 100 запросов в день).
Моделей, где допустима небольшая задержка при первом запросе.
Способ 3. Time Slicing GPU 🔧
Способ работает в рамках Managed Kubernetes (MK8s), при условии, что в кластере создана группа узлов с GPU NVIDIA Tesla V100. Суть в том, что одна физическая GPU делится между несколькими подами (например, 5 подов по 1 GPU): каждый получает свою долю времени, как если бы у него была выделенная карта.
Что делать:
1. Создайте кластер Managed Kubernetes с узлом, где:
Привет, Хабр! На связи Ольга, в Хайстекс я занимаюсь развитием бизнеса и корпоративных связей. В блоге компании мы опубликовали перевод статьи с отличным примером того, как управляемые облачные сервисы перестают быть только техническим инструментом и становятся стратегическим фактором даже там, где главная ценность бизнеса — люди и их экспертиза.
В статье рассматривается кейс SkillGigs, сервиса для подбора специалистов в сфере здравоохранения и технологий. Управляемые облачные сервисы позволили внедрить 3D-резюме, выстроить мультиоблачную архитектуру, обеспечить безопасность и упростить интерфейс для пользователей. Результат: поиск стал быстрее, рекомендации — точнее, а процесс найма удобнее. Этот пример хорошо показывает, что облако — это уже не просто «поддержка инфраструктуры», а реальный драйвер бизнеса.
Статья не перегружена кейсами, в ней собраны ключевые выводы и один практический пример. Хороший повод пересмотреть своё отношение к облачным сервисам и понять, где они реально дают бизнес-эффект.
🤖 Запустили AI-помощника Клаудию — она доступна в вашем личном кабинете. Клаудия поможет создать ВМ, уточнит задачу и подберет конфигурацию, подскажет команды в консоли. А еще настроит виджеты, алерты и нотификации для контроля ВМ, поможет найти нужное в документации и выступит как co-pilot. Попробуйте бесплатно — новым пользователям дадим 4 000 рублей на облачные ресурсы.
🖥️ В Evolution Foundation Modelsоткрыли доступ к новым open source моделям, в том числе к OpenAI 120b, Qwen-3, GigaChat, GLM-4.5 и другим. Всего доступно 20+ LLM, ранжировщиков и эмбеддеров, а до 31 октября вы можете бесплатно потестировать их на своих проектах.
Участвовали в крупных мероприятиях:
Провели митап Cloud․ru Tech Lab: AI&ML, где рассказали, как автоматизировали пользовательские сценарии с помощью AI-агента, разобрали устройство агентов, RAG и Ragas. А еще слушатели могли вживую пообщаться с экспертами, «прожарить» свое резюме и посетить демозону AI-решений на базе Cloud․ru Evolution.
Организовали конференцию GoCloud Tech 2025 о создании решений на базе AI и облаков. Обсудили кейсы внедрения AI&ML, тренды в создании облачной инфраструктуры, актуальные практики для работы с данными в облаке.
Во второй раз приняли участие в крупнейшей AI-выставке в мире — World Artificial Intelligence Conference в Шанхае 🇨🇳 На нашем стенде мы показали платформу Cloud․ru Advanced, провели встречи с Geely, Tencent, Baidu, IFlytek, GAC, TikTok, Alibaba, Li Auto и другими зарубежными компаниями.
🧠 Запустили бесплатный курс про создание ML-моделей и их внедрение в бизнес. Будет полезно менеджерам продуктов и проектов, DS-, backend- и frontend-разработчикам, продуктовым дизайнерам. Можно учиться в комфортном темпе, а в конце дадим именной сертификат.
✨ Предлагаем бесплатно протестировать сервисы Evolution Data Platform — новой платформы для полного цикла работ с данными:
Evolution Managed BI для визуализации и анализа данных в облаке, в стадии public preview;
Evolution Managed Airflow поможет управлять рабочими процессами. Находится в стадии private preview — напишите своему аккаунт-менеджеру, чтобы начать тестирование.
Запустили в публичное превью и другие сервисы Evolution Data Platform:
Обсудили с Павлом Наумовым, первым вице-президентом Газпромбанка, как меняется клиентский путь и что такое «человеколюбие» в цифровых продуктах. Смотрите на удобной площадке: VK Видео, YouTube или Rutube.
💳 Упростили регистрацию в реферальной программе: теперь подать заявку можно в несколько кликов, а на каждом этапе вы можете получить помощь менеджера. Присоединяйтесь к программе до 30 сентября, рекомендуйте сервисы Cloud.ru, получайте 20% от суммы их чеков в первый год и 15% — в последующие.
В Рег.облаке запустили новую зону доступности публичного облака в Москве
Сегодня подключили в московском регионе новую облачную локацию Рег.облака. Теперь в столице в публичном облаке доступна и вторая площадка на базе дата-центра «Медведково-2».
Новая площадка расширяет пул ресурсов и делает московский контур отказоустойчивым: теперь сценарии disaster recovery можно строить внутри региона, без компромиссов по производительности и связности.
Внутренняя «начинка» в новой локации:
до 25 000 vCPU и 30 ТБ RAM;
более 1 ПБ хранилища;
серверы разных классов, включая высокочастотные AMD EPYC и новую линейку «Стандартные+» на Intel Xeon с NVMe SSD;
интерконнект: 40 Гбит/с к серверам, 100 Гбит/с между стойками;
отказоустойчивость по схеме N+1.
Что нового в архитектуре:
API работает без пауз при переключениях: BGP+ECMP вместо keepalived;
служебный и клиентский трафики изолированы на трех уровнях («матрешка» туннелей);
расширенный мониторинг дает прозрачность и быстрый разбор инцидентов.
Протестировать и заказать облачные серверы в новой локации уже можно сейчас на сайте Рег.облака.
Кажется я опять удалил бэкап из бакета... А нет, у меня ж стоит блокировка 😮💨
Добавили в S3 новую функцию — блокировку объектов (Object Lock). Теперь можно зафиксировать, или по-айтишному — «залочить» версии объектов так, что их нельзя удалить или изменить в течение заданного времени. Даже админу бакета.
👌 Идеально для архивов, резервных копий и важных логов.
Есть несколько режимов:
GOVERNANCE — «админ может удалять, а другие нет»
Объекты защищены от случайных действий, но пользователи с особыми правами могут их удалять в любой момент
COMPLIANCE — «тут и админ бессилен»
Объекты остаются нетронутыми до конца срока блокировки, даже если у вас админские права
Без глобальной защиты — «по дефолту»
Блокировка версий объектов не будет устанавливаться в бакете
OpenAI внедряет проверку возраста в свою нейросеть ChatGPT. Если ИИ решит, что пользователь младше 18 лет по стилю общения, то он получит доступ только к урезанной версии ChatGPT с цензурой и родительским контролем. Также нейросеть обучат не вступать во «флиртующие разговоры» с несовершеннолетними и не обсуждать темы, связанные с самоубийством.
Взрослый пользователь сможет подтвердить свой возраст, предоставив паспорт или водительские права. «Мы понимаем, что это нарушает конфиденциальность для взрослых, но считаем это оправданным компромиссом», — пояснили в OpenAI.
Многим знаком Zabbix, помогающий мониторить и отслеживать состояние сетевых узлов, серверов и сервисов. Этот инструмент представляет собой open-source систему, которая поддерживает сбор метрик с различных устройств, анализ данных и оповещение при возникновении проблем. Благодаря своим функциям Zabbix позволяет автоматизировать мониторинг, гибко управлять конфигурациями и интегрировать сторонние решения.
А однo из ключевых инструментов — использование шаблонов, работа с которыми упрощает отслеживание и контроль сетевых узлов и серверов. Шаблоны помогают быстро настраивать группы хостов, синхронизировать мониторинг и минимизировать ручную работу. Подробнее о работе с пользовательскими шаблонами в Zabbix, их настройке и привязке к хосту рассказали в базе знаний Рег.облака.
Конкурс open source проектов, которые способны изменить мир 🌏🖥️
Зовем вас на «Код без границ» — грантовую программу для развития open source проектов, которую совместно с Cloud.ru и Хабром подготовили GitVerse. Поделитесь своими разработками на GitVerse, получите шанс выиграть 💸💸💸 и получить поддержку в масштабировании идеи.
Номинации конкурса:
AI-инновации.
Наука и образование без границ.
Для всех и каждого (приложения и сервисы).
Разработка для разработчиков — инструменты и библиотеки.
Как участвовать? Рассказываем:
Разместите репозиторий вашего проекта на GitVerse или импортируйте его с другой git-площадки.
Подайте заявку до 31 октября. В ней должна быть ссылка на уже размещенный конкурсный проект.
Подождите, пока жюри — опытные спецы из СберТеха (GitVerse), Сбера, Cloud.ru и лидеры отрасли — посмотрят работы и выберут финалистов.
Узнайте результаты в декабре.
Что по призам и плюшкам?
Гранты 150, 100 и 50 тысяч рублей — для первого, второго и третьего места.
Облачные ресурсы Cloud.ru для реализации ваших масштабных идей.
Помощь с масштабированием проекта, поддержка экспертов и нетворкинг.
Регистрируйтесь, принимайте участие и покажите силу открытого кода 💪
Представлен ресурс Anxiety Aid Tools (проект на GitHub) для помощи в снижении уровня постоянного беспокойства, панических атак. Платформа содержит дыхательные практики для расслабления, инструкции по мышечной релаксации, избавлении от судорог и даже эпилептических припадков. Сервис также предлагает аудио и визуалы для медитации, антистресс-игры.
Представлен музыкальный сервис OpenSpot Music с треками со многих стримингов с высоким качеством музыки. Алгоритмы подборки помогут найти новые песни, можно собрать собственные плейлисты.
Какие сайты будут работать без мобильного интернета. Инфографика от РБК. Ранее российские операторы связи стали рассылать своим клиентам уведомления о том, какие именно сервисы продолжают работать в мобильных сетях операторов даже в условиях ограничения интернета.
С крутейшей новости — мы добавили возможность создавать неограниченное число дополнительных пользователей в S3, чтобы вы не скучали в своем бакете :)
Что входит в фичу:
➖ Настройка индивидуальных прав для пользователей ➖ Управление добавленными пользователями из бакета и из общего раздела ➖ Возможность сброса ключей доступа
Юзкейс 1: Можно выдать одному сотруднику доступ для просмотра, а другому — полное управление конкретным бакетом.
Юзкейс 2: Если у вас есть приложение, которое работает с S3, вы сможете завести для него отдельного пользователя с ограниченными правами.
Подключить допов можно в виджете на дашборде бакета → потом добавить в бакет через вкладку «Пользователи».
До и после fine-tuning — что изменится в работе модели после дообучения? 🧠
Fine-tuning, или дообучение — это дополнительное обучение уже готовой модели на специализированных данных, чтобы она лучше выполняла узконаправленные задачи.
Это проще, чем обучение модели с нуля, так как нужно доработать лишь некоторые параметры, а не миллиарды. Файнтьюнить можно уже готовые модели, которые хорошо справляются с базовыми вещами, например, написанием текстов или генерацией изображений.
Для чего же подойдет fine-tuning? 👇
Исправление слабостей, если модель в чем-то проседает. Иногда стартовая модель не очень хорошо решает базовые задачи: путает термины, особенно если они схожи, или дает сложные нечитаемые ответы. Такое бывает, когда в обучающем датасете больше данных, например, на английском, а пользователи общаются на русском. Проблема решится, если дообучить модель на качественных данных с хорошими примерами, чтобы та поняла, что от нее требуется.
Обеспечить работу с минимумом задержек. В некоторых сервисах важно, чтобы модель отвечала мгновенно, а не обращалась за информацией к внешней базе знаний — это увеличивает время ответа. Вы можете дообучить модель на собственных данных, чтобы она быстро получала нужные сведения.
Глобально изменить датасет. Бывает, что многое из той информации, что использует модель, устаревает, или существенно меняются требования в предметной области. Тогда есть смысл собрать побольше качественных данных и провести дообучение на них.
Генерация текстов в специфичном стиле. Допустим, вы хотите, чтобы модель заполняла документацию в конкретном формате, использовала юридический стиль, оформляла тексты по ГОСТ или писала как Достоевский. Подогнать стиль ответов модели под нужный формат — задача, которую можно решить с помощью fine-tuning.
🤔 Что в итоге? Fine-tuning незаменим, если нужно поменять стиль ответов, подогнать тексты под конкретный формат, исправить изначальные слабости. Или когда важно, чтобы модель давала ответы без задержек и не ходила во внешние источники. Подробнее про fine-tuning, а еще про RAG и промпт-инжиниринг читайте в нашей статье.
А для дообучения вы можете использовать Evolution ML Finetuning — технология LoRA позволит сэкономить ресурсы GPU и ускорить процесс. Доступны модели из Hugging Face: сравнивайте их между собой, выбирайте подходящую и точечно настраивайте под свои задачи.
Думаете, ваши облачные сервисы защищены от случайного (или намеренного) уничтожения? А если для «апокалипсиса» нужно отправить всего один GET-запрос?..
Как построить отказоустойчивую систему для ритейла в облаке
Как известно, рост бизнеса — это не только новые клиенты и растущие продажи, но и закономерное увеличение нагрузки на IT-инфраструктуру, которая в какой-то момент может стать тормозом для развития.
С такой проблемой столкнулся мебельный ритейлер «169»: сайты компании стали медленно грузиться, а пиковые нагрузки приводили к простоям. Это било по конверсии и мешало масштабироваться. Решением стала полномасштабная миграция в Рег.облако — для высокой производительности СУБД и поиска развернули выделенные серверы.
В основе вот какая начинка:
отказоустойчивый кластер PostgreSQL с WAL-архивированием;
кластер Elasticsearch с русской морфологией для поиска товаров;
Redis для кэширования;
медиафайлы хранятся в S3 с lifecycle-правилам;
вся инфраструктура управляется через автоматизированный CI/CD-пайплайн на собственном GitLab-сервере;
мониторинг метрик и бизнес-показателей через Prometheus, Alertmanager и Grafana с алертами в мессенджер.
Как это повлияло на бизнес:
конверсия сайта в покупку выросла на 15%;
годовой оборот интернет-магазинов увеличился на 20%;
затраты на администрирование инфраструктуры сократились на 30% за счет автоматизации и Pay-as-you-go-модели.
Подробнее о том, как выстраивали архитектуру и каких результатов достигли, разобрали в кейсе на сайте.
А у нас для вас сразу два вебинара про Kubernetes 🖥️☁️
Присоединяйтесь к встречам с экспертами Cloud.ru, чтобы узнать, как эффективнее работать в кубере и обеспечить безопасность контейнеров.
📅 16 сентября архитектор решений Илья Смирнов расскажет, как мультикластерная архитектура повышает отказоустойчивость сервисов. А еще — когда именно пригодится мультикластер и как его организовать с помощью фреймворка Karmada.
📅 18 сентября менеджер продукта Вера Орлова поделится, какую роль в защите контейнеров играет Admission Control, какие есть типы контроллеров и в чем разница между Kyverno и Gatekeeper.
Записывайтесь на вебинары и до встречи в 11:00 по мск ⏱️ Будет полезно всем, кого интересует, как организовать защиту и отказоустойчивость контейнеров: DevOps-инженерам, техлидам, специалистам по кибербезопасности — и не только.
Новый веб-интерфейс S3 в Рег.облаке: все основные операции теперь прямо в браузере
В Рег.облаке важное обновление для всех, кто работает с данными. Мы завершили большой этап по развитию интерфейса работы с объектами в нашем S3-совместимом хранилище. Теперь все основные операции с объектами доступны прямо через визуальный интерфейс личного кабинета — без необходимости использовать командную строку или сторонние файловые менеджеры.
Существенно расширили функциональность веб-интерфейса, добавив в него все ключевые фичи:
просмотр и сортировка объектов в бакете;
создание папок для организации данных;
прямая загрузка файлов до 1 ГБ прямо из браузера;
скачивание файлов;
генерация предварительно подписанных URL-ссылок для безопасного предоставления доступа к объектам на время;
копирование, перемещение и переименование объектов;
удаление отдельных объектов и папок, а также массовое удаление для очистки хранилища;
быстрый поиск по объектам в бакете.
Как это можно использовать на практике?
Обмен тестовыми данными с подрядчиком. Разработчик выгружает артефакты сборки в бакет и создает предварительно подписанную ссылку, а подрядчик скачивает файл по ссылке без регистрации в облаке и настройки сложных политик доступа. Это экономит время и упрощает взаимодействие.
Организация структуры в бакете. DevOps-инженер может навести порядок в хранилище: сгруппировать файлы по папкам, переименовать старые версии и удалить лишнее. В результате вся команда быстрее находит нужные данные, а хранилище становится опрятным и логичным.
Массовое удаление старых данных. Аналитики ежедневно загружают в бакет выгрузки объемом в десятки гигабайт. Когда отчеты или расчеты устаревают, их можно удалить одной операцией, а не по одному файлу. Это мгновенно освобождает место и упрощает управление.
Общекомандное хранилище. Команда может использовать бакет как единое пространство для тяжелых файлов: документов, образов, архивов логов. Больше не нужно пересылать гигабайты через почту или сторонние сервисы.
Подключить S3-хранилище можно в личном кабинете Рег.облака. Новый веб-интерфейс уже доступен всем пользователям.
Представлен открытый проект TruffleHog, который умеет анализировать хранилища данных и приложений, чтобы найти пароли, важные сведения и другую приватную информацию. В сервис заложено больше 700 детекторов различных видов данных и тысячи API, по которым инструмент ищет нужную информацию. Решение имеет встроенную поддержку сканирования GitHub, GitLab, Docker, файловых систем, S3, GCS, Circle CI и Travis CI. Также TruffleHog умеет сканировать сертификаты TLS, двоичные файлы, документы и медиа.