Как работать с Kubernetes: ищем скрытые статьи затрат в облаке и пошагово все оптимизируем, чтобы сэкономить / Хабр

Kubernetes давно стал де-факто стандартом для оркестрации контейнеров. Его используют все – от крупных корпораций до мелких стартапов – и в ус не дуют. Потому что удобно: сервисы после падения поднимаются сами, трафик равномерно размазывается по репликам, деплой происходит в один клик, а масштабирование — по графику нагрузок, а не по звонкам в два часа ночи. Но это на бумаге. А вот на практике многие компании сталкиваются с тем, что за удобство приходится платить. Причем зачастую куда больше, чем рассчитывали первоначально. Бывали даже случаи, когда на кластер закладывали 200 тысяч рублей в месяц, а по факту отдавали 500-600. Естественно, работать в таких условиях нельзя. Поэтому надо разбираться, куда на самом деле уходят деньги и как сохранить их при себе.

Скрытые источники затрат Kubernetes

Избыточное резервирование ресурсов: платим за воздух

Начнем с самого раздражающего: многие разработчики, когда запрашивают ресурсы для подов, всегда берут с запасом. Ну, а вдруг нагрузка вырастет или приложению понадобится больше памяти? Верно же при подготовке к застолью говорят, что лучше вылить, чем не хватит. Так и тут. Команда просто резервирует 2 vCPU и 4 ГБ памяти, хотя реальное потребление составляет 0.5 vCPU и 1 ГБ. И так делают если не все подряд, то как минимум через одного.

Отчеты, кстати, полностью подтверждают этот тезис. По данным 2025 Kubernetes Cost Benchmark Report, средняя утилизация CPU в кластерах составляет всего 10%, а памяти – 23%.

Есть что рассказать? Станьте голосом комьюнити и делитесь с участниками своими кейсами в сообществе. Там много интересного.

И это не разовый перекос на паре проектов, а устойчивый тренд, который идет по нисходящей. Ведь еще за год до этого утилизация CPU составляла 13% средней загрузки. По памяти картина абсолютно похожая: тут оверпровиженинг оценивается в 50–60%, то есть мертвым грузом лежит до половины оплаченного объема. И ради чего? Вопрос риторический.

А теперь давайте посчитаем. Цена виртуалки с 2 vCPU и 4 ГБ может измеряться тысячами рублей в месяц. Если т��ких недоиспользованных нод будет 50 штук, даже по самым грубым прикидкам расходов получится на 50 тысяч рублей. А теперь экстраполируем на весь кластер: если на инфраструктуру уходит 500–600 тысяч рублей в месяц, то выйдет, что из них 200–300 тысяч – это те самые мощности, которые никогда не видели реальной нагрузки. Хотя решение, в общем, всегда лежало на поверхности.

Нужно просто провести аудит метрик. Открываем Prometheus или другой облачный мониторинг и смотрим на реальное потребление CPU и памяти за последние неделю-две.

Главное – учитывать не пиковые значения, поскольку они могут быть случайными, а то, сколько ресурсов приложение реально использует в 95% времени. Тут-то обычно и выясняется, что под зарезервировал 2 CPU, а по факту почти всегда работает на 0,3–0,5 CPU. Значит, requests можно спокойно урезать на 30–40%, и ничего не сломается. В результате кластер будет работать точно так же, как и работал, а деньги в никуда улетать перестанут.

Простаивающие ресурсы: 24/7 от безделья

Связанная, но отдельная беда – ресурсы, которые просто не используются, но продолжают работать круглосуточно. Это как раз про dev- и QA-окружения, которые крутятся ночью и в выходные, про staging-кластеры, которые держат включенными на всякий случай, и про разовые экспериментальные стенды, про которые все благополучно забыли как только закрыли задачку.

В облаке такой подход абсолютно неприемлем. Если dev-кластер работает 24/7, а по факту нужен только в рабочие часы по будням, до половины времени вы будете платить за него без какого-либо выхлопа.

Допустим, сам кластер совокупно обходится вам в 30 тысяч рублей в месяц. Если включать его только в рабочие часы (около 15 часов смены, 5 дней в неделю), его стоимость падает процентов на 40. То есть мы и не урезаем себя ни в чем, и экономим буквально на ровном месте. Просто за счет того, что девелопмент по ночам спит, а не мотает счетчик в холостую.

Плата за управление кластером: тысячи рублей за право быть

Если вы пользуетесь Managed Kubernetes, то платите не только за рабочие ноды, но и за сам кластер. Точнее, за управляющую плоскость. Это те самые мастер-ноды, которые отвечают за работу всей системы. Они распределяют поды по узлам, следят за их состоянием, управляют сетью и хранилищем.

В Yandex Cloud за управляющую плоскость берут от нескольких тысяч рублей в месяц, а зональный мастер может стоить и того дороже, до десятков тысяч.

На первый взгляд кажется, что это не такие уж и большие деньги. Но если у вас не один кластер, а пять окружений — prod, staging, dev, QA, плюс disaster recovery — каждое в отдельном кластере, то выходит в районе 30-35 тысяч рублей в месяц только за право иметь кластеры. То есть просто за сам факт их существования, без учета рабочих нод, хранилища и трафика. А ведь они тоже стоят денег. Даже если считать грубо, за год таким макаром может набежать 300-400 тысяч рублей, и это – напоминаю – еще до того, как в кластере появится хоть один под.

Добавим сюда балансировщики нагрузки, NAT-шлюзы для выхода в интернет и приватные endpoints для доступа к сервисам внутри облака – и получим еще несколько тысяч рублей ежемесячно только на сетевую инфраструктуру.

Сеть: тихий убийца бюджета

Трафик — это то, что всегда забывают считать до первого счета. Дело в том, что входящий трафик в облако обычно бесплатен, и кажется, что сеть денег вообще не стоит. Но ведь исходящий трафик тарифицируется, и еще как. Например, Yandex Cloud берет в районе 1,5 рублей за гигабайт сверх первых 100 ГБ в месяц.

Звучит, опять-таки, не очень страшно, но давайте посчитаем дальше. Если у вас 300 ГБ в месяц исходящего трафика — а для среднего прода это обычная цифра — то это 200 ГБ сверх лимита. Или примерно 300 рублей в месяц. Но если трафик растет до терабайта в месяц, это уже полторы тысячи. А если речь про API, который отдает файлы или что-то стримит, цифры вырастают еще в разы.

Более того, многие архитектуры построены так, что сервисы постоянно общаются между разными зонами доступности или даже регионами. Например, приложение в зоне ru-central1-a, база данных в ru-central1-b. Многие этого даже не заметят, но каждый запрос пересекает границу. А это стоит денег. Межзональный трафик тарифицируется отдельно, и если архитектура не оптимизирована под локальность данных, эти расходы могут съедать до 40% облачного бюджета.

Микросервисная архитектура, где сервисы раскиданы по разным зонам для отказоустойчивости — это как раз такой случай. Намерения-то благие, но каждый вызов между сервисами тарифицируется как межзональный трафик. Один сервис делает 10 тысяч запросов в минуту к другому в соседней зоне — и счет растет очень быстро.

А ларчик-то просто открывался. Всего-то и было нужно, что:

Использовать topologySpreadConstraints или node affinity, чтобы размещать взаимодействующие сервисы в одной зоне
Кэшировать часто запрашиваемые данные локально
Минимизировать количество внешних API-вызовов

Только вспоминают об этом обычно после первого (чаще шокирующего) счета. Не раньше.

Хранилище и observability: где логи, там дыра в бюджете

Kubernetes активно использует внешнее хранилище. PersistentVolume для баз данных, состояние приложений, логи, метрики — все это надо где-то хранить. Облачные диски в Yandex Cloud стоят от 1,5 до 15 рублей за гигабайт в месяц в зависимости от типа — HDD, network-SSD или network-SSD-nonreplicated. Цифра, по сути, микроскопическая. Но возьмем 50 терабайт данных — и вот с нас уже дерут от 75 до 150 тысяч рублей в месяц только на хранилище.

Хотя, конечно, самое больное место — это даже не сами диски, а логирование и мониторинг. Если настраиваете логирование через Yandex Cloud Logging или собственный стек вроде Elasticsearch и Loki — там будут свои тарифы на хранение и обработку:

Одно приложение, которое генерирует десятки гигабайт логов в месяц, может обходиться в тысячи рублей только на обработку и хранение.
Если приложений 10 — это уже 20-50 тысяч рублей ежемесячно на observability.

Метрики — отдельная боль. Если у вас высокая cardinality — когда в лейблах метрик стоит pod ID, user ID или request ID — объем хранилища может вырасти в 3-5 раз. В результате Prometheus начинает жрать гигабайты памяти, диски пухнут, а запросы тормозят. Все эти метрики надо где-то хранить, и если retention policy не настроена, данные будут копиться месяцами, а счет – расти и расти.

Человеческий фактор: вам нужен специалист

Наконец, самый скрытый, но зачастую самый дорогой ресурс — люди. Kubernetes не работает в режиме «поставил и забыл». Тут нужен DevOps-инженер, который построит кластер, настроит мониторинг, будет ловить инциденты, оптимизировать производительность, да и просто обновлять все это дело.

По данным на 2026 год, средняя зарплата DevOps-инженера в России составляет около 250-265 тысяч рублей в месяц. Естественно, это не потолок. Сеньор может брать и больше. Но даже если всем займется один человек на кластер — это серьезная статья расходов. Исследования показывают, что примерно 35% всех затрат на Kubernetes — это операционные издержки, то есть люди и их время.

А вариантов у вас, по сути, всего два:

Заплатить облачному провайдеру за Managed Kubernetes, чтобы он взял управление мастерами, обновления и контроль безопасности на себя;
Нанять инженера себе в штат и поручить все это ему.

Обычно, если честно прикинуть зарплаты, налоги, бенефиты и время на обучение, выходит, что сотрудник на аутсорсе получается дешевле. Но многие компании этого не делают, а потом удивляются, почему их Kubernetes в итоге обходится дороже облачного решения.

Пошаговая оптимизация

Шаг 1: Включаем автоскейлинг — пусть кластер сам за собой следит

Самый мощный инструмент экономии — автоматическое масштабирование. Если кластер может добавлять и убирать узлы в зависимости от реальной нагрузки, вы избежите ситуации, когда мощности простаивают.

Что нужно настроить:

Cluster Autoscaler управляет количеством рабочих нод, добавляя или удаляя машины по мере роста/падения нагрузки. Логика здесь простая: если поды не могут запуститься из-за нехватки ресурсов, автоскейлер подкидывает новые ноды. А если утилизация падает ниже заданного порога (обычно это где-то 50%), он просто убирает лишние ноды.
Horizontal Pod Autoscaler (HPA) добавляет или убирает реплики подов, ориентируясь на метрики CPU, памяти или, например, длины очереди сообщений и количества HTTP-запросов. Если реплика начинает тормозить от нагрузки — HPA берет и запускает еще несколько штук для распределения.
Vertical Pod Autoscaler (VPA) корректирует requests и limits прямо на ходу. Его задача – собрать статистику по реальному потреблению, вычисить, сколько на самом деле нужно, и применить новые значения. VPA можно включить в режиме советчика — и тогда он покажет, что стоит поменять, но при этом ничего не тронет. А можно в автоматическом — и тогда он сделает все сам без вашего участия.

Шаг 2: Аудит requests/limits — убираем избыток

Как уже выяснилось, избыточное резервирование ресурсов — ключевая причина переплат. Поэтому второй шаг — честный аудит того, какие requests и limits стоят на контейнерах.

Возьмите Prometheus или облачный мониторинг, вытащите метрики реального потребления CPU и RAM за неделю-две, и статистика покажет правду. Если приложение потребляет максимум 0,5 CPU, а зарезервировано 2 – это прямой кандидат на урезание.

Тут вам пригодится Vertical Pod Autoscaler. Он собирает статистику по потреблению и подсказывает новые границы. Нет специального инструмента? Значит, делаем ручками: смотрим на то, сколько ресурсов приложение реально использует в 95% времени (исключая редкие пики, само собой) и устанавливаем limit чуть выше этого значения, примерно на 20%, и забываем.

Кроме того, надо найти и удалить зомби-ресурсы:

Неиспользуемые неймспейсы
Остановленные поды
Старые PersistentVolume, оставшиеся после тестов
Orphaned ConfigMap и Secret

Чем быстрее вы их прибьете, тем меньше денег потеряете. Причем их обычно бывает довольно много.

Шаг 3: Прерываемые инстансы и долгосрочные контракты — платим дешевле

Не все нагрузки требуют дорогих серверов с гарантированными ресурсами. Для некритичных задач вполне можно использовать что-то подешевле. Например, спот-инстансы или виртуалки с долей vCPU.

Ключевое преимущество спот-инстансов – это, конечно, цена. В зависимости от провайдера скидка на них может составлять от 50-70 до 90% от цены обычных. Минус только в том, что провайдер может взять и выключить их без вашего ведома. Да, вас обязательно предупредят, но чаще всего – в срок от 30 секунд до 2 минут. Да, для нагрузок fault-tolerant ��то не большая проблема. Но многих это все равно отталкивает.

Что можно запускать на прерываемых инстансах:

Обработка данных в фоне
CI/CD-пайплайны
Тестовые окружения
Машинное обучение с чекпойнтами
Batch-обработка задач

В общем, все, что переживет рестарт, можно смело запускать на прерываемых инстансах и экономить примерно 50-60%.

Нет, конечно, перекладывать на прерываемые инстансы все подряд нельзя. Но грамотная архитектура позволяет запускать на них до половины рабочих нагрузок без какого-либо ущерба.

Главное – правильно все организовать:

Отдельный нод-пул для прерываемых инстансов
Taints и tolerations, чтобы критичные поды туда не заходили
PodDisruptionBudget для контролируемого failover при выключении нод

Если нагрузка постоянна и предсказуема, рассмотрите долгосрочные контракты. Облачные провайдеры чаще всего дают скидку 20-30% за обязательство использования на 1-3 года. Это не даст такого эффекта, как прерываемые инстансы, но каждый процент экономии — это деньги.

Шаг 4: Многоуровневое хранение — холодное хранилище вместо горячего SSD

Данные постоянно растут, и без контроля хранилище превращается в настоящую черную дыру для бюджета. Ну, это если не оптимизировать. А мы ведь не такие, верно?

Поэтому первое, что организовываем, – это многоуровневое хранение. Горячие данные и актуальные базы можно оставить на быстрых и дорогих SSD-томах, но вот холодные данные строго обязательно переносим на что-нибудь помедленнее и подешевле. Сюда относятся:

Архивные логи
Старые бэкапы
Редко запрашиваемые файлы
Исторические данные для аналитики

В Yandex Cloud это COLD или ICE-storage. Такие хранилища сильно дешевле в (порой в 10-50 раз) просто за счет того, что на чтение данных в них вместо миллисекунд данных уходят минуты или даже часы. Но зато какая экономия!

Затем берем и безжалостно удаляем все ненужное. В принципе можно делать это и руками, но удобнее настроить Lifecycle policies для логов и метрик — и они сами будут чистить старье по расписанию. Логи за год в Prometheus? Зачем? Месяц храните в горячем виде, а остальное отправляет либо архив, либо вообще на удаление. То же самое с резервными копиями. Если бэкап трехмесячной давности никому не нужен – под нож. Иначе платить будете тупо за хранение мусора.

Ну, и напоследок – сжатие. Логи и бэкапы спокойно жмутся на 50-90% в зависимости от формата. А все что жмется – мы жмем. Это экономит и место, и скорость передачи данных.

Также делайте аудит PVC: если пода больше нет, а PersistentVolume висит — удаляйте, чтобы не платить за пустующее место.

Шаг 5: Оптимизируем сетевую архитектуру

Если архитектура не оптимизирована под топологию размещения, только на хождения трафика вы можете терять довольно много денег. Особенно это касается межзонального трафика. Поэтому старайтесь размещать тесно взаимодействующие компоненты в одной зоне. Приложение плюс база должны располагаться в одной зоне, а не контактировать друг с другом из разных.

Kubernetes позволяет использовать topologySpreadConstraints, чтобы под выбирал ноду ближе к зависимым сервисам. А, если работаете с несколькими регионами, проверяйте, чтобы трафик между ними действительно был нужен, а не просто ходил туда-сюда из-за чьей-то ошибки.

С выходящим наружу трафиком история точно такая же:

Ответы от внешних API кэшируйте локально
Не дергайте одни и те же данные десятки раз в день
Используйте внутрикластерные сервисы вместо внешних, где возможно
Включите сжатие трафика (gzip, brotli), и объем передаваемых данных уменьшится в разы

Ну, и балансировщики нагрузки — куда без них. Многие заводят отдельный балансировщик под каждый сервис, хотя можно объединить все сервисы за одним Ingress-контроллером — NGINX, HAProxy или Traefik — и одним внешним Load Balancer'ом, и экономия получится в тысячи рублей в месяц просто за счет консолидации.

Шаг 6: Разделяем окружения и управляем их временем работы

Когда встает вопрос, как организовать окружения для разработки, тестирования и продакшна, обычно выбирают один из двух вариантов: либо запускают все на одном огромном кластере, либо под каждую команду заводят отдельный. Что выбрать – не так уж и важно. Главное – оптимизация.

Если кластер один на всех, убедитесь, что dev/QA-задачи не требуют ресурсов production-уровня. Ограничить аппетиты непродуктовых окружений помогут ResourceQuotas и LimitRanges. С ними разработчики банально не смогут зарезервировать больше, чем им реально нужно.

Если кластеры разные, приостанавливайте dev/staging на ночь и в выходные. Эти окружения работают только в рабочие часы, а остальное время работают зазря. К тому же, они обычно не требуют строгого SLA, поэтому их можно запускать на менее надежных ресурсах:

Прерываемые инстансы
Меньше реплик подов
Отсутствие multi-zone deployment
Упрощенный мониторинг и логирование

Такой подход разгружает production-кластер и сокращает расходы без ущерба для основной системы.

Шаг 7: Мониторим затраты — видим, за что платим

Невозможно оптимизировать то, что не видно. Kubernetes показывает утилизацию CPU и памяти, но не переводит это в рубли. Для этого нужны специальные инструменты.

Kubecost — или его open-source база OpenCost — интегрируются в кластер и показывают разбивку потребления в денежном выражении, подсвечивая также неиспользуемые ресурсы и контейнеры с аномальным потреблением.

Не хотите ставить отдельный инструмент? Есть альтернативы:

Специализированные FinOps-решения (Finout, DoIT International)
Облачные инструменты (Yandex Cloud Billing API, AWS Cost Explorer, Google Cloud Billing)

Главное – после внедрения мониторинга настройте алерты. Тогда если какой-то сервис внезапно начал потреблять в 5 раз больше ресурсов, вы узнаете об этом сразу, а не когда придет счет.

А дальше – дело техники. Раз в месяц или квартал команда смотрит отчет по затратам, сравнивает с метриками нагрузки и планом, решает, что можно подрезать. Это и есть FinOps-подход: когда команда видит, сколько стоит ее сервис, бережливость приходит сама собой.

Шаг 8: Когда Kubernetes — не то, что нужно

Ну, и финалочка, которая для кого-то может нивелировать все, что было написано выше. Так вот Kubernetes — это штука вообще не для всех.

Да, для микросервисной распределенной системы с десятками разработчиков выгоды очевидны. Тут и автоматизация, и масштабирование, и устойчивость, и цирк с кон��ми. Но если ваша команда состоит из пяти человек, а приложение монолитное, полноценный кластер — это перебор. Вы больше времени потратите на настройку и поддержку, чем на получение выгод от использования Kubernetes.

Да и зачем он вам, когда есть инструменты попроще:

Управляемые контейнерные сервисы (Yandex Cloud Container Solution, Selectel Container Registry)
Платформы типа Heroku или Railway
Простой VPS с Docker Compose

Если инфраструктурный бюджет меньше 100 тысяч рублей в месяц, Kubernetes может съесть его целиком на одних только мастерах и операционных издержках. Тут важно брать инструмент под свои задачу, а не гнаться за модой.

Чек-лист оптимизации затрат

Но все, что описано выше, работает только при системном подходе. Поэтому, чтобы не потеряться в деталях, вот вам чек-лист по всем основным пунктам.

Что нужно проверить:

Включен ли Cluster Autoscaler и HPA на продакшен-кластерах
Проведен ли аудит requests/limits по всем неймспейсам
Используются ли прерываемые инстансы для некритичных нагрузок
Настроено ли многоуровневое хранение с переходом на холодные тиры
Удалены ли ненужные PersistentVolume'ы и неймспейсы
Оптимальна ли сетевая архитектура — нет ли лишнего межзонального трафика
Настроен ли мониторинг затрат через Kubecost, OpenCost или облачные инструменты
Есть ли процесс регулярного review затрат раз в месяц или квартал
Автоматизировано ли выключение dev/QA-окружений вне рабочего времени
Настроена ли observability без избыточного логирования

Если ответ да на 8+ пунктов — вы в хорошей форме. Если нет на полови��у — есть серьезный потенциал для экономии.

Как работать с Kubernetes: ищем скрытые статьи затрат в облаке и пошагово все оптимизируем, чтобы сэкономить