Мониторинг сетевого стека linux

    Часто мониторинг сетевой подсистемы операционной системы заканчивается на счетчиках пакетов, октетов и ошибок сетевых интерфейсах. Но это только 2й уровень модели OSI!
    С одной стороны большинство проблем с сетью возникают как раз на физическом и канальном уровнях, но с другой стороны приложения, работающие с сетью оперируют на уровне TCP сессий и не видят, что происходит на более низких уровнях.


    Я расскажу, как достаточно простые метрики TCP/IP стека могут помочь разобраться с различными проблемами в распределенных системах.



    Почти все знают утилиту netstat в linux, она может показать все текущие TCP соединения и дополнительную информацию по ним. Но при большом количестве соединений netstat может работать достаточно долго и существенно нагрузить систему.


    Есть более дешевый способ получить информацию о соединениях — утилита ss из проекта iproute2.


    Для сравнения:


    $ time netstat -an|wc -l
    62109
    
    real    0m0.467s
    user    0m0.288s
    sys     0m0.184s

    $ time ss -ant|wc -l
    62111
    
    real    0m0.126s
    user    0m0.112s
    sys     0m0.016s

    Ускорение достигается за счет использования протола netlink для запросов информации о соединениях у ядра. Наш агент использует netlink напрямую.


    Считаем соединения


    Disclaimer: для иллюстрации работы с метриками в разных срезах я буду показывать наш интерфейс (dsl) работы с метриками, но это можно сделать и на opensource хранилищах.


    В первую очередь мы разделяем все соединения на входящие (inbound) и исходящие (outbound) по отношению к серверу.


    Каждое TCP соединения в определенный момент времени находится в одном из состояний, разбивку по которым мы тоже сохраняем (это иногда может оказаться полезным):




    По этому графику можно оценить общее количество входящих соединений, распределение соединений по состояниям.


    Здесь так же видно резкое падение общего количества соединений незадолго до 11 Jun, попробуем посмотреть на соединения в разрезе listen портов:




    На этом графике видно, что самое значительное падение было на порту 8014, посмотрим только 8014 (у нас в интерфейсе можно просто нажать на нужном элементе легенды):




    Попробуем посмотреть, изменилось ли количество входящий соединений по всем серверам?


    Выбираем серверы по маске “srv10*”:





    Теперь мы видим, что количество соединений на порт 8014 не изменилось, попробуем найти на какой сервер они мигрировали:





    Мы ограничили выборку только портом 8014 и сделали группировку не по порту, а по серверам.


    Теперь понятно, что соединения с сервера srv101 перешли на srv102.


    Разбивка по IP


    Часто бывает необходимо посмотреть, сколько было соединений с различных IP адресов. Наш агент снимает количество TCP соединений не только с разбивкой по listen портам и состояниям, но и по удаленному IP, если данный IP находится в том же сегменте сети (для всех остальный адресов метрики суммируются и вместо IP мы показываем “~nonlocal”).


    Рассмотрим тот же период времени, что и в предыдущих случаях:





    Здесь видно, что соединений с 192.168.100.1 стало сильно меньше и в это же время появились соединения с 192.168.100.2.


    Детализация рулит


    На самом деле мы работали с одной метрикой, просто она была сильно детализирована, индентификатор каждого экземпляра выглядит примерно так:


    {name="netstat.connections.inbound.count", state="<TCP_STATE>", listen_ip="<IP>" listen_port="<PORT>" remote_ip="<REMOTE_IP>"}

    Например, у одно из клиентов на нагруженном сервере-фронтенде снимается ~700 экземпляров этой метрики


    TCP backlog


    По метрикам TCP соединений можно не только диагностировать работу сети, но и определять проблемы в работе сервисов.


    Например, если какой-то сервис, обслуживающий клиентов по сети, не справляется с нагрузкой и перестает обрабатывать новые соединения, они ставятся в очередь (backlog).


    На самом деле очереди две:


    • SYN queue — очередь неустановленных соединений (получен пакет SYN, SYN-ACK еще не отправлен), размер ограничен согласно sysctl net.ipv4.tcp_max_syn_backlog;
    • Accept queue — очередь соединений, для которых получен пакет ACK (в рамках "тройного рукопожатия"), но не был выполнен accept приложением (очередь ограничивается приложением)

    При достижении лимита accept queue ACK пакет удаленного хоста просто отбрасывается или отправляется RST (в зависимости от значения переменной sysctl net.ipv4.tcp_abort_on_overflow).


    Наш агент снимает текущее и максимальное значение accept queue для всех listen сокетов на сервере.


    Для этих метрик есть график и преднастроенный триггер, который уведомит, если backlog любого сервиса использован более чем на 90%:





    Счетчики и ошибки протоколов


    Однажды сайт одного из наших клиентов подвергся DDOS атаке, в мониторинге было видно только увеличение трафика на сетевом интерфейсе, но мы не показывали абсолютно никаких метрик по содержанию этого трафика.


    В данный момент однозначного ответа на этот вопрос окметр дать по-прежнему не может, так как сниффинг мы только начали осваивать, но мы немного продвинулись в этом вопросе.


    Попробуем что-то понять про эти выбросы входящего трафика:







    Теперь мы видим, что это входящий UDP трафик, но здесь не видно первых из трех выбросов.
    Дело в том, что счетчики пакетов по протоколам в linux увеличиваются только в случае успешной обработки пакета.


    Попробуем посмотреть на ошибки:





    А вот и наш первый пик — ошибки UDP:NoPorts (количество датаграмм, пришедших на UPD порты, которые никто не слушает)


    Данный пример мы эмулировали с помощью iperf, и в первый заход не включили на сервер-приемщик пакетов на нужном порту.


    TCP ретрансмиты


    Отдельно мы показываем количество TCP ретрансмитов (повторных отправок TCP сегментов).


    Само по себе наличие ретрансмитов не означает, что в вашей сети есть потери пакетов.
    Повторная передача сегмента осуществляется, если передающий узел не получил от принимающего подтверждение (ACK) в течении определенного времени (RTO).


    Данный таймаут расчитывается динамически на основе замеров времени передачи данных между конкретными хостами (RTT) для того, чтобы обеспечивать гарантированную передачу данных при сохранении минимальных задержек.


    На практике количество ретрансмитов обычно коррелирует с нагрузкой на серверы и важно смотреть не на абсолютное значение, а на различные аномалии:




    На данном графике мы видим 2 выброса ретрансмитов, в это же время процессы postgres утилизировали CPU данного сервера:





    Cчетчики протоколов мы получаем из /proc/net/snmp.


    Conntrack


    Еще одна распространенная проблема — переполнение таблицы ip_conntrack в linux (используется iptables), в этом случае linux начинает просто отбрасывать пакеты.


    Это видно по сообщению в dmesg:


    ip_conntrack: table full, dropping packet

    Агент автоматически снимает текущий размер данной таблицы и лимит с серверов, использующих ip_conntrack.


    В окметре так же есть автоматический триггер, который уведомит, если таблица ip_conntrack заполнена более чем на 90%:





    На данном графике видно, что таблица переполнялась, лимит подняли и больше он не достигался.


    Вместо заключения


    • детализация метрик очень важна
    • если где-то что-то может переполниться, нужно обязательно покрывать мониторингом такие места
    • мы снимаем еще много разного по TCP/IP (RTT, соединения с непустыми send/recv очередями), но пока не придумали, как c этим правильно работать

    Примеры наших стандартных графиков можно посмотреть в нашем демо-проекте.
    Там же можно постмотреть графики Netstat.

    okmeter.io
    Осмысленный мониторинг серверов и сайтов

    Похожие публикации

    Комментарии 17

      +1
      было бы гораздо полезней, если бы в статье указали откуда берутся все мониторящиеся параметры. в частности, очень интересно, где взять SYN queue и Accept queue, в виде счётчиков для Linux и FreeBSD.
        +2
        я так понимаю, что эта статья по совместительству — реклама платного продукта (иного уже почти не встретишь), и не озвучивать все детали — осознанный шаг.
          +3

          accept queue: можно смотреть в netstat/ss для LISTEN сокетов, текущий размер в колонке Recv-Q, лимит в колонке Send-Q, например:


          $ ss -lnt
          State       Recv-Q Send-Q                                                      Local Address:Port                                                        Peer Address:Port
          LISTEN      0      128                                                         192.168.100.1:8012                                                                   *:*

          для этого сокета текущий размер = 0, лимит 128

            0

            syn queue: насколько я понимаю нельзя посмотреть текущий размер, но при переполнении увеличивается счетчик netstat -st |grep TCPBacklogDrop. Я могу ошибаться, нужно повнимательнее почитать примерно тут

          0
          А какую базу вы используете для хранения метрик? По формату оных похоже на prometheus.
            +1

            Мы используем самописное решение поверх cassandra. В плане метрик и выражений на prometheus похоже, да.

            0
            Статья реклама, но благодаря ей я решил таки переделать забикс скрипты по мониторингу сети с bash (парсинг вывода ss и ip) на netlink и сходу нагуглил отличную статью по нему https://habrahabr.ru/post/121254/
              0
              Добрый день, будете ли выкладывать ваши скрипты по мониторингу сети на netlink в opensource?
              0
              Еще одна распространенная проблема — переполнение таблицы ip_conntrack в linux (используется iptables), в этом случае linux начинает просто отбрасывать пакеты.

              Кстати, поэтому лучше не использовать conntrack на серверах под нагрузкой.

                0
                Лучше вообще его не использовать если трафик tcp. Условные nginx или haproxy отлично умеют проксировать намного эффективнее, а настройка выглядит намного комфортнее. Если же кто-то печется о создании ограничений, то есть iptables с правилами ACCEPT и DROP никто не отменял.
                0
                И за что люди так любят stacked graphs? Их же читать сложно — тонкие полоски постоянно колбаски, и не поймёшь, они становятся тоньше или толще.
                  +1

                  Stacked areas позволяют оценить сумму сразу и часто значительные изменения получаются нагляднее. Хотя конечно вкусовщина это все =)

                  0
                  Писатели намеренно вводят в заблуждение по ss и netstat чтоль?
                  по ss вывели только tcp (-ant), а по netstat всё (-an).
                  И да, на разных серверах сравнение ss и netstat не всегда дает преимущество ss, иногда совсем наоборот.
                    0

                    Да, это ошибка, но в целом результат будет примерно тот же. К сожалению сейчас нет под рукой сервера с большим количеством соединений.

                    0
                    And on the seventh day there was tcp/ip

                    IP на третий, TCP на четвёртый.
                      0
                      А кто-нибудь может подсказать как выводить по отдельности входящие и исходящие сокеты в ss?
                        0

                        По-моему никак. Идеологически: нужно взять список своих listen сокетов и про все остальные вычислять, есть ли там хотя бы с одной стороны ваш listen. Если есть — сокет входящий, нет — исходящий

                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                      Самое читаемое