nAbdullin Sep 18 2019 at 08:33

Разбор: ООМ на узле Kubernetes

5 min

13K

Слёрм corporate blogDevOps*Server Administration*System administration*

Translation

+24

Comments 18

AlexBin Sep 18 2019 at 09:23

Интересно, когда пройдет мода в КДПВ класть фотку тонущего контейнеровоза в постах про Kubernetes.

vitaly_il1 Sep 18 2019 at 09:23

Вывод 2: Задавайте ограничения по ресурсам

ИМХО, это должно быть правилом для любого использования контейнеров

darthslider Sep 18 2019 at 18:50

Вообще очень не хватает возможность выставить квоту просто на неймспейс, мол вот вам 2 ядра 2 гига, разбирайтесь там.

ferocactus Sep 19 2019 at 06:24

Так они же вроде есть. Или на что те квоты, которые не "лимиты ресурсов" контейнеров?

darthslider Sep 19 2019 at 08:48

Смотрите, если выставить квоту на неймспейс, но не выставить на контейнеры внутри они просто не запустятся.
Таким образом что бы выставить квоту на неймспейс, надо сначала в выставить квоты на контейнеры внутри (не на поды, именно на контейнеры внутри подов!), сложить всё это и выставить на неймспейс.
Решили добавить еще пару экземпляра пода в неймспейсе — они не стартанут, т.к. не хватит ресурсов, нужно повышать квоту на неймспейс в целом.
Ну или overprovisioning дикий устраивать.
Я же мечтаю о «в неймспейсе что-то происходит, на все контейнеры даю 2 гб памяти, пущай сами делят».
Условно, как виртуальная машина позволяет выделить строго определённое число ресурсов под все процессы внутри себя, без строго разделения по процесса. Ресурсы просто общие, но ограниченные.

ferocactus Sep 19 2019 at 09:21

Ха, динамическое распределение ресурсов квоты по контейнерам внутри namespace? Звучит настолько логично, что трудно поверить в отсутствие такой возможности.

darthslider Sep 19 2019 at 09:35

Я так понимаю, суть в том, что квоты задаются через cgroups при старте процесса (контейнера) и они не динамические в принципе. Плюс всё это размазано по нескольким нодам, что усложняет задачу.

Мне бы хватило просто лимитов вида «ни один из контейнеров в этом неймспейсе не может отожрать больше 2000 мб памяти», это уже уровень логики кубера, но он так не умеет.

vitaly_il1 Sep 19 2019 at 06:57

Мне кажется, это слишком «грубо», т.е. малополезно. Может, я просто еще не научился использовать неймспейсы.

darthslider Sep 19 2019 at 08:50

Банальный пример: мы хотим что бы разработчик в своём dev неймспейсе шальными экспериментами не выжрал всю память ноды.
Сейчас, если мы ставим квоту на этот неймспейс, то разработчик обязан в каждом своём контейнере прописывать явно лимиты, причем сумма лимитов не может быть больше отведённого на неймспейс.

vitaly_il1 Sep 19 2019 at 09:16

Да, логично, понял

RouR Sep 18 2019 at 16:48

Вывод 2: Задавайте ограничения по ресурсам

Но ведь тогда эти поды будут убиваться в последнюю очередь (при нехватке ресурсов из-за падения ноды).
А поды без ограничений будут убиты первыми.
Или уже что-то поменялось в кубере?

darthslider Sep 18 2019 at 18:49

Подам без ограничения можно выставить request равный limit например, тем самым можно регулировать порядок смерти подов по OOM.

ferocactus Sep 19 2019 at 06:22

Подов без ограничений не должно быть. Kubernetes не следовало допускать возможность запуска таких.

Kib0rg Sep 18 2019 at 18:53

Для тех, кому интересно, что могло быть причиной повышенной дисковой активности: сама по себе нехватка памяти. При увеличении memory pressure сначала начинают сбрасываться дисковые кэши, I/O растёт как из-за сброса грязных страниц, так и из-за уменьшения размеров кэшей, а когда и этой меры оказывается недостаточно, ядро начинает выгружать страницы, занятые отображенными в память файлами программ. Когда программе передаётся управление и поток исполнения доходит до такой страницы, он снова начинает читать её с диска, и т.д.
В общем, при острой нехватке памяти ядро (ну, по крайней мере Linux) пытается сделать всё, чтобы выжить, хотя на самом деле непонятно, действительно ли это так необходимо, поскольку, с одной стороны, процессу с утечкой в любом случае уже ничем не помочь (если есть утечка, память однажды всё равно закончится), а с другой стороны, подобные попытки сохранить жизнь утекающему процессу и отложить вызов OOM-Killer иногда приводят к такому замедлению системы, что проше сразу всю машину ребутнуть, потому что она десятки минут обрабатывает даже ввод с клавиатуры. Вспомним известный баг 12309, говорят, его аналог и в недавних версиях ядра ещё стреляет.

gecube Sep 19 2019 at 11:22

О, да, хотел написать то же самое, но Вы меня опередили.
+1
На самом деле получается, что отключение свопа помогает, но не до конца — все равно тюнить vm.
Кстати, как относитесь к отключению overcommit памяти в линуксе?

Kib0rg Sep 20 2019 at 11:02

В целом никак не отношусь, по-моему в каждом конкретном случае надо смотреть, насколько оно помогает или наоборот вредит. Если утечек памяти нет и её потребление в целом стабильно, не вижу в overcommit ничего плохого.
А вообще я не то чтобы большой специалист по настройке всех этих параметров, просто рассказал то, что знаю, так как кому-то может помочь и сэкономить часть времени на поиск несуществующих проблем в своем приложении. Что, кстати, усугубляется невозможностью простыми средствами наподобие iotop узнать топ процессов по IO на конкретное блочное устройство.

socketpair Mar 4 2023 at 22:03

Поэтому умные товарищи для управляющего софта делают mlockall() но почему-то в линуксах это не принято. Плюс есть щас какойто демон который киляет до оом.

mapcuk Sep 19 2019 at 20:37

Если заменить fluentd на fluentbit можно было бы исключить побочные явления от Ruby.
А fluentd метрики отдаёт (fluentbit умеет)? Перед самым OOM интересно бы метрики самого fluentd посмотреть.