Alex-HT 25 апр 2014 в 03:48

Практические рекомендации: устраняйте неполадки, используя команду 'Top' в Linux

8 мин

95K

Блог компании ХостТрекер

Перевод

+33

Комментарии 30

DmitryKoterov 25 апр 2014 в 05:53

Например, mysql, займет всего один поток, поэтому при полной нагрузке будет использовать (1/кол-во виртуальных CPU, присвоенных VM). postgresql является многопоточным, и может использовать больше процессоров, если они будут выделены, – помните об этом, создавая виртуальные машины в гипервизоре

Шайтанама какая.

Labutin 25 апр 2014 в 05:58

Мда… Писать по MySQL, что он однопоточный — это вы (обращение к автору статьи, а не к автору коммента) в каком году с ним последний раз имели дело?

suntexnik 25 апр 2014 в 07:22

А что тут удивительного? Всё зависит от приложения, которое с базой работает.

Для примера, есть у нас сервачок с базой Oracle (Нормальный такой, на 4 socket-а (всего 64 треда), с подключением к SAN по FC).
А приложение самописное — контора одна пишет. Оптимизации под многопоточность никакой.
Как запускается отчёт — часа так на 2-3, один тред (логический cpu) загружен на 100%, остальные почти простаивают.
А потом жалуются, что сервер у нас слабенький, не тянет их софт.

Гнать бы таких программеров из этой конторы куда подальше, дык ведь других нет, монополисты они в нашем городе. Да и заточены под нашу специфику — металлургическое производство…

Labutin 25 апр 2014 в 05:56

«время бесперебойной работы»

Я бы лучше выразился, что это время с момента запуска ОС (операционной системы). Работа с момента запуска до текущей даты вполне может быть и «сбойной». Просто эти сбои не приводили с рестарту ОС.

TiGR 25 апр 2014 в 06:17

Странно, что не упомянут atop.

НЛО прилетело и опубликовало эту надпись здесь

TiGR 25 апр 2014 в 09:52

Он-то как раз упомянут.

НЛО прилетело и опубликовало эту надпись здесь

UUSER 25 апр 2014 в 06:18

Практические рекомендации: устраняйте неполадки, используя команду 'Top'

Под катом увидел только куцый man top. С таким же успехом можно написать/перевести целый цикл статей «Практические рекомендации: устраняйте неполадки, используя команду 'man||ps||rm||killall||emerge||apt-get||ping...'» Новичкам, может и будет полезено, но заголовок ИМХО не отражает сути.

работаем над новой фичей нашего сервиса мониторинга, для того чтобы можно было мониторить не только внешние параметры сервера, но и внутренние

Чем утилиты вроде nrpe не устроили?

AraneusAdoro 25 апр 2014 в 16:58

Практические рекомендации: устраняйте неполадки, используя команду 'man'

Чёрт, да такая статья просто необходима :)

Jekel 25 апр 2014 в 06:24

Тут же был уже сто и один обзор всевозможных top'ов
чем этот лучше? перевод мана на русский?..

TaHKucT 25 апр 2014 в 15:09

По моему этот в разы хуже, чем тот

white_panda 25 апр 2014 в 06:40

А вот мне интересно, какие значения system cpu load (который sy) стоит считать высокими? У меня вот на ноутбуке он держится в районе 10-15%, это много?

nikolayvaganov 25 апр 2014 в 07:29

Смотря что нагружает. Лучше всего посмотреть по тому же топу или ps aux какие из ядерных процессов дают нагрузку.

temaHT 25 апр 2014 в 07:56

Я бы смотрел не на cpu load, а на load average. Оно дает более вменяемую картину чем абстрактные проценты. Все хорошо если load average < 1.0 X количество CPU. Но в принципе можно жить с load average где то до 3-4 на ядро. Но это уже легкий хардкор.

Deadbeat 25 апр 2014 в 06:43

Посмотрите еще вот этот доклад Михаила Епихина из Яндекс.

michurin 25 апр 2014 в 07:30

Сколько лжи и неполной информации!

Больше всего меня поразило лженаучное объяснение про wa. Столько ереси про диск, память (смешались в кучу кони, люди) и ни слова про реальную природу wa.

Пример, где нет никаких операций с диском и при это wa:99.8, и load average over 9000

Пишем скрипт, который просто ждёт 100 секунд данных, которые никогда не придут:

#!/usr/bin/python
import socket, random
sock = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
sock.settimeout(100)
sock.bind(('127.0.0.1', random.randrange(5000,50000)))
data, addr = sock.recvfrom(1024)

Запускаем его 1000 раз:

~$ for i in {1..1000}; do ./script.py & done

Рекомендую сразу 1000 не запускать: всё ляжет. Начните с 20-30.

DmitryKoterov 25 апр 2014 в 07:52

Странно как-то это. Вернее, что будет высткий iowait и la, не странно, а вот то, что ляжет — странно. По идее, для системы recv, безрезультатно ждущий 100 секунд, не должен отличаться от sleep(100). Разве что в пайтоновском recv баг с busywait. Может быть, 1000 пайтон-скриптов в sleep(100) точно так же все положат?

sch1z0phr3n1a 25 апр 2014 в 08:02

В вашем коде процесс будет висеть в S-state, и на iowait никак не будет влиять. На iowait влияют только процессы, которые висят в D-state.

michurin 25 апр 2014 в 09:24

Согласен, мой пример не самый удачный (призываю обратить внимание на этот комментарий — он толковый :-)).

Но суть моего примера, думаю, всем понятна. На моей практике бывало множество случаев, когда wa зашкаливал из-за небрежной работы с сетью, а вот wa из-за дисковой подсистемы, мне кажется, — штука экзотическая.

am83 25 апр 2014 в 08:33

Это Ваш пример лженаучен. Если запускать одновременно 1000 python-процессов, то, очевидно, подскочит LA и wait, т.к. необходимо обратиться к диску для инициализации библиотек, и процессы будут в R-state кратковременно. И не факт, что все обращения к диску отдадутся из page-кеша.

Но в основной своей части Ваш скрипт, как уже ответили выше, находится в S-state и не оказывает влияния ни на iowait ни на LA.

cruz 25 апр 2014 в 08:52

Хоть и понимаю, что over 9000 — это устоявшаяся фраза, но все равно скажу, что на практике load average больше 1000 не поднимается (или может даже меньше, не помню точно). Потом происходит сброс. Кажется, даже проблемные процессы убиваются.

Если кто-то помнит как там все на самом деле — напишите, пожалуйста.

Rondo 25 апр 2014 в 09:52

Процитирую свой же комментарий в статье "CPU Load: когда начинать волноваться?"

В старом посте про load average давали ссылку на замечательную статью, где я и прочитал про это самое «кспоненциально взвешенное скользящее среднее»,
Очень рекомендую к прочтению, можно даже добавить в пост.
Часть 1 www.teamquest.com/pdfs/whitepaper/ldavg1.pdf
Часть 2 www.teamquest.com/pdfs/whitepaper/ldavg2.pdf

cruz 25 апр 2014 в 11:17

То, что нужно, спасибо.

xenozauros 13 мая 2014 в 04:53

Вот из личной практики пример, опровергающий ваше утверждение:

cruz 13 мая 2014 в 08:57

Спасибо, верю. А на какой это системе? На OS X?

xenozauros 13 мая 2014 в 09:25

Debian. Консоль с макоси по ssh.

cruz 13 мая 2014 в 09:50

Тогда сдаюсь, нечем бить :)

xenozauros 13 мая 2014 в 09:54

Причем сервер даже как-то жил. И собирал и отдавал. Просто был такой самоблокирующийся код… Сейчас переписали — сатло значительно лучше.

Burmuley 25 апр 2014 в 12:06

>>iowait% является показателем производительности диска.

Не только диска, а всей подсистемы ввода/вывода. Т.е. включаем сюда же сетевые интерфейсы, usb и прочее.
К слову, работа дисковой подсистемы зависит еще от планировщика. Внутри гостевых систем (linux) прекомендуется выбирать шедулер noop, т.к. прочие оптимизации внутри гостя просто лишние.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий