tangro 22 мая 2017 в 16:29

Вы неверно измеряете загрузку процессора

6 мин

63K

Блог компании Инфопульс УкраинаВысокая производительность*Анализ и проектирование систем*Системное программирование*Разработка под Linux*

Перевод

+81

Комментарии 62

Pilat 22 мая 2017 в 17:08

Естественный показатель — это шум от вентиляторов. Добавить датчик шума, откалибровать — и абсолютно точный результат. Кроме процессоров типа i7-7700k, конечно.

Akon32 22 мая 2017 в 17:15

Может, лучше электросчётчик?

Carburn 22 мая 2017 в 19:06

Скорость вращения вентилятора зависит от температуры. Легче температуру процессора смотреть. Эти значения будут не точными

Pilat 22 мая 2017 в 19:30

Зато вентиляторы можно распознавать на слух без дополнительных устройств.

ozonar 23 мая 2017 в 08:00

Температуру можно тоже распознавать без дополнительных устройств.

Singaporian 23 мая 2017 в 08:05

В системах, где вентиляторы вообще есть :-) А если их нет — считай остался без «мониторинга».

Kastrulya 14 дек 2021 в 13:17

В серверных помещениях такой "мониторинг" тоже может начать сбоить

Igor_O 23 мая 2017 в 11:38

Но многие материнки рулят скоростью вентилятора по ступенькам порядка 5 градусов с большим гистерезисом на снижение скорости, особенно, если загрузка процессора упала не сразу до 0.
Зато когда что-нибудь ночью считается или рендерится, пока спишь, сразу просыпаешься, как только уровень шума уменьшился…

НЛО прилетело и опубликовало эту надпись здесь

gxcreator 23 мая 2017 в 12:47

Ничего не надо собирать и калибровать, достаточно смотреть на энергопотребление.

Pilat 23 мая 2017 в 13:30

Энергопотребление чего? Матплаты, памяти, видеокарты, дисков?

gxcreator 23 мая 2017 в 13:45

Энергопотребление процессора, очевидно же. Это то, от чего напрямую зависит тепловыделение и соответственно скорость вентилятора

Pilat 23 мая 2017 в 15:03

А как его замерить?

Igor_O 23 мая 2017 в 15:58

Теоретически, микруха, управляющая VRM, умеет по i2c рассказывать параметры своей работы, из которых, теоретически, можно высчитать напряжение и потребляемую мощность… Но это надо в регистрах i2c копаться — вариантов VRM есть несколько, регистры могут отличаться.
С другой стороны, есть готовые тулзы у MS и у Intel, которые как-то оценивают энергопотребление процессора «в реальном времени».

gxcreator 23 мая 2017 в 16:22

Утилиты типа HWMonitor умеют это делать.

Igor_O 23 мая 2017 в 18:16

Но тут именно момент, что для многих этих инструментов заявляется именно не измеренное энергопотребление, а вычисленная по каким-то параметрам оценка энергопотребления.
Хотя, вроде как на некоторых серверных платформах есть способ непосредственно через мониторинг смотреть энергопотребление процессора.
(но когда я однажды участвовал в разработке 4-х процессорной платы, у нас, кажется, мониторинг энергопотребления процессоров предусмотрен не был...)

gxcreator 23 мая 2017 в 18:39

Как вариант можно ваттметр в цепь питания процессора впаять/вставить.

Akon32 22 мая 2017 в 17:22

на этом процессоре максимально возможным значением IPC могло бы быть 4.0 (это связано со способом получения и выполнения инструкций современными процессорами).
…
Если у вас IPC > 1.0, то ваше приложение страдает не столько от ожидания данных, сколько от чрезмерного количества выполняемых инструкций.
…
Как вы видите, я провёл черту по значению IPC равному 1.0.

Непонятно, почему бы не загрузить суперскалярный процессор на полную, раз он умеет выполнять больше одной инструкции за такт? В конце концов, программы (по крайней мере некоторые) выполняют вычисления, а не просто гоняют данные в памяти.

P.S. "IPC — instructions per cycle": Мне казалось, понятия "цикл" и "такт" означают разное.

tangro 22 мая 2017 в 17:42

Мне казалось, понятия «цикл» и «такт» означают разное.

Русская Википедия не имеет перевода статьи Instruction cycle. Люди на StackExange говорят, что правильнее «такт».

PsyHaSTe 24 мая 2017 в 11:30

А разве IPC это не per clock?

Igor_O 23 мая 2017 в 11:23

Мне казалось, понятия «цикл» и «такт» означают разное

Очень зависит от переводчика и контекста. В заграничном языке частота процессора называется «clock speed», т.е. скорость часов. Соответственно, меряется в «оборотах (которые не rotation, а cycle) в секунду». Различие между циклами и тактами, теоретически, может возникнуть на стыке цифры и аналога, где на один цикл синусоиды может приходиться несколько отсчетов… Но живьем такого никогда не встречал.
В общем случае «цикл процессора» и «такт процессора» — синонимы.

Непонятно, почему бы не загрузить суперскалярный процессор...

Загрузить суперскалярный процессор «на полную» можно только специально подобранным набором инструкций без ветвлений, переходов и обращений в память. 4 инструкции за такт возникают за счет конвейеров и того факта, что после загрузки команды в конвейер, уже на следующем такте туда можно грузить следующую инструкцию (условно, примерно, не совсем так, но...). Но, конвейер имеет глубину для, например, современных интелов, больше 20 команд. Следовательно, любой «промах» в предсказании ветвления означает, что у нас значительная часть команд, которые успели загрузиться в конвейер, нужно выкинуть и начать грузить конвейер по-новой командами из другой ветки. Опять же, сейчас оно не прямо вот совсем так устроено, принимаются меры для борьбы и куча страшных аббревиатур: распараллеливание декодирования команд, распараллеливание выполнения микрокоманд, переупорядочивание микрокоманд, чтобы максимальное количество выполнялось параллельно и т.д.

Akon32 23 мая 2017 в 12:10

Насколько я понимаю, автор утверждает, что "максимальное количество команд выполнялось бы параллельно" — это плохо, и это кажется мне странным. Если конвейер работает с максимальной производительностью, например перемножая небольшие вектора или матрицы 4х4, то что, вычисления нужно разбавлять доступами в память, чтобы обеспечить IPC=1 ?

НЛО прилетело и опубликовало эту надпись здесь

Igor_O 23 мая 2017 в 14:37

«процессор Шрёдингера»

На сколько я помню, что-то такое пробовали делать. Но, сильно широко не применяется. Даже один из самых ранних алгоритмов предсказания ветвлений от IBM «попадал» больше, чем в 90% случаев, а некоторые из современных алгоритмов в некоторых задачах «угадывают» больше 97% ветвлений.

yusman 22 мая 2017 в 17:53

Спасибо за статью. А есть какие то способы изменить IPC под Виндой?

QDeathNick 22 мая 2017 в 17:55

Да, хотелось бы тоже измерить

tangro 22 мая 2017 в 17:59

Ну, вроде интеловский VTune умеет измерять обратную метрику (CPI)

igentuman 22 мая 2017 в 18:49

VTune стоит страшных денег. Вроде бы Intel PCM может добавить метрику в родной Windows Perfmon. Но я его скомпилить не могу, а скомпиленого нигде не валяется.

igentuman 22 мая 2017 в 20:06

А вот скомпилировал, но оказывается, что АМД процессоры не поддерживаются. Жаль.

Salabar 22 мая 2017 в 21:22

Есть штука под названием CodeXL, правда я там непосредственно метрики под названием IPC не видел.

DustCn 23 мая 2017 в 12:45

Это в районе 10тыр за лицензию, или вообще на халяву за академическую лицуху? Видемо интелу пора доплачивать за втюн.

f1inx 22 мая 2017 в 18:15

Небольшое пояснение на то, что измеряется в качестве загрузки CPU для процесса.

В моменты времени когда может осуществляться принудительное переключение контекста задачи (т.е. 1 раз за JIFFY) происходит инкремент в структуре task активных в данный момент задач их load_time. Поэтому если по каким либо причинам переключение задач окрашено данная статистика может «безбожно» врать. Т.е. мы, например, можем сделать искусственный процесс, который будет на 100% загружать ресурсы CPU четко между JIFFY затем переключаться в режиме I/O SHCHEDUILIG на короткое время на другой процесс и результатом будет 0% загрузка по данным TOP.

f1inx 22 мая 2017 в 18:28

BTW непонятно, почему автор считает IPC>1 проблемой производительности?

Проблема производительности это скорее IPC не близко к максимально возможному для данной архитектуры CPU.
Конечно для окончательного вывода требуется более комплексный анализ алгоритма, оптимальности загрузки внешних шин, кэшей, page faults, branch miss predictions, interrupt rate, trap/exception/taskswitch/cpu migration rate.

DaylightIsBurning 22 мая 2017 в 19:20

подозреваю, что имелось ввиду, что если IPC>1 — улучшить perfromance можно лишь изменением алгоритма, а не оптимизацией памяти/ввода.

novice2001 23 мая 2017 в 00:04

Это бред. Только изменением алгоритма улучшить производительность можно только в случае, когда IPC=MaxIPC, или очень близок к этому.
А с другой стороны, как можно оптимизировать memory/IO, не меняя алгоритма?

В обоих случаях придется изменить хотя бы реализацию одного и того же алгоритма.

hdfan2 23 мая 2017 в 07:00

По-моему, это что-то типа эвристики — если IPC меньше примерно 1, то лучше оптимизировать в/в, а если больше, то лучше оптимизировать алгоритмы. Но ничто не мешает оптимизировать и то, и другое при любом IPC, просто отдача будет меньше.

f1inx 24 мая 2017 в 11:31

Нет, не обязательно так, IPC может быть меньше 1 не только из-за задержек при доступе к периферийным шинам.
Есть куча инструкций которые выполняются больше чем один такт и не позволяют их выполнять параллельно с другими.

f1inx 24 мая 2017 в 11:37

Обычно бывает наоборот, если у нас большие задержки на I/O, то для увеличения IPC нужно поместить, как можно больше вычислительных инструкций не связанных с необходимым I/O между I/O инструкциями.

Jogger 22 мая 2017 в 20:04

>>на этом процессоре максимально возможным значением IPC могло бы быть 4.0

Простите за нубский вопрос — а как определить максимум для своего процессора?

novice2001 22 мая 2017 в 23:58

Естественно, из документации производителя.

dimaleks 23 мая 2017 в 11:21

Вопрос к сожалению не нубский, а очень непростой. Сейчас в процессоре можно выделить frontend и backend: первый загружает команды из кэша, декодирует их и отправляет на выполнение в один из портов. Обычно производители публикуют информацию по архитектуре своих процессоров с указанием того, сколько и каких инструкций он может выполнить на том или ином порте и сколько инструкций можно загрузить и декодировать за такт.
Но это такие «рафинированные» цифры, которые никак не учитывают out-of-order execution, branch prediction, кэш инструкций и т.д. В реальности получить цифры, хоть сколько-то близкие к 4.0, почти невозможно, даже написав очень простой специализированный код.
Другой вопрос, что IPC далеко не всегда показывает загрузку процессора. Например, эта метрика не знает, насколько полезные инструкции выполняются (может многие из этих инструкций — это работа с индексами), она никак не учитывает использование векторых операций, которые могут повысить производительность в 4-8 раз.
Если интересна тема, рекомендую хороший сайт http://www.agner.org, там человек много экспериментирует и приводит эмпирические оценки с соображения для многих скрытых деталей.
Цитата автора сайта по теме:

I think the decoding front end and the renamer are designed with a 4-wide pipeline for a throughput of four µops per clock. These µops are queuing up in the reservation station if execution of them is delayed for any reason. The scheduler can issue more than 4 µops per clock cycle in bursts until the queue is empty.

Igor_O 23 мая 2017 в 11:31

Цитата автора сайта по теме:
I think

Забавно, но на «хоботе» лежит статья, сравнивающая архитектуру Санди Бридж с Хасвелом, там как раз подробно этот момент разобран. И да, официально — 4 декодера (3 «простых», выдающих одну микрокоманду, и один «сложный», выдающий до 4 х микрокоманд) из которых микрокоманды попадают в кэш на 56 микрокоманд, откуда попадают в буфер пересортировки.
Хорошая, кстати, статья, хоть и трехлетней давности. Рекомендую: Достойна ли архитектура Haswell называться новой и переработанной?

VaalKIA 22 мая 2017 в 20:48

Поддерживаю комментаторов: чем измерять под Windows IPC, да ещё и на процессорах AMD?

splav_asv 23 мая 2017 в 00:03

Есть бесплатный пакет Amd codexl, содержащий в том числе профилировщик. Не совсем на уровне Intel vtune, но для многих задач достаточно.

aamonster 22 мая 2017 в 21:26

А что, кто-то оценивает cpu cache misses в целом, а не только для своей программы? (кстати, кто тут спрашивал — вроде инструменты для этого есть в профайлере Visual Studio)

И если да — есть ли хоть какие-то методы с этим бороться глобально, а не просто исправляя свой код?

VolCh 23 мая 2017 в 05:13

Купить процесс с бОльшим кэшем. Некоторые модели по сути только размером кэша и отличаются.

aamonster 23 мая 2017 в 08:47

Это понятно, но в большинстве случаев не поможет (если алгоритм "гуляет по памяти" — обычно у него в активном использовании действительно большой объём), а покупать проц только для того, чтобы проверить — дорогое удовольствие (метрик же, позволяющих оценить, какой размер кэша спасёт отца русской демократии, вроде нету).

Я имел в виду методы оптимизации вроде "изолировать источники cache misses на одном ядре, чтоб не мешали остальным" (если это поможет).

ToSHiC 23 мая 2017 в 00:01

Вообще, кажется, что правильно было бы смотреть на stalled-cycles-frontend и stalled-cycles-backend, которые у вас помечены как . perf был запущен в системе в виртуалке, да?

Во вторых, программа, которая постоянно прогружает все исполнительные блоки — это довольно редкое явление, если это, конечно, не бенчмарк. Более того, в современном мире устройств, работающих от батареи, важнее, сколько электричества будет использовано для работы программы, и далеко не факт, что наилучшая энергоэффективность и максимально возможное значение IPC — это одна и та же точка.

alan008 23 мая 2017 в 00:10

Уважаемый автор, если не секрет, что за вычисления вы столь тщательно оптимизируете? Уровень между процессором и оперативкой в реальных приложениях вроде никогда не был узким местом. Чаще все упиралось либо в диск, либо в сеть, либо в синхронизацию потоков (в разделяемые структуры данных многопоточного приложения).

DaylightIsBurning 23 мая 2017 в 00:30

очень многие вещи упираются в оперативку. Например, если вам нужно перемножить поэлементно две больших матрицы — это memory-bound operation. Операции, которые связанны с random access — тоже часто memory bound, поэтому unordered_map, выполненный как дерево обычно намного медленнее чем dense_map.

DaylightIsBurning 23 мая 2017 в 00:40

Самая быстрая память 60GB/s, но это если копируются большие блоки целиком. Если копируются переменные размером по 4 байта, случайно разбросанные по памяти — будет намного хуже. При этом процессор может выполнять до 16 8-байтных операций за такт. Если операция — сложение двух переменных по 8 байт, выходит что процессор может перемолоть (8+8)*16*4Ghz=1.02400 TBps. В данном сценарии разрыв выходит более чем на порядок. В реальности он может быть ещё хуже, но, конечно, может быть и наоборот.

aamonster 23 мая 2017 в 09:55

Э… Вообще-то это совершенно стандартная проблема со времён 386. Классический пример тех времён — берём картинку и начинаем вращать её на экране (в те времена это делалось софтово). При использовании наивного алгоритма (отрисовка по строкам) — вращение быстрое, когда картинка повёрнута примерно "как была", и тормозится при повороте ближе к 90 градусам. Решалось отрисовкой по квадратикам 8*8 пикселей.

В любом руководстве по оптимизации это описано, все давно умеют с этим бороться.

tangro 23 мая 2017 в 11:25

Банальное кодирование\декодирование 4к видео в 60 FPS легко может потребовать гонять десяток гигабайт в секунду туда-сюда. А такое видео нынче уже даже на ютюбе попадается.

Loginin 23 мая 2017 в 11:05

Выводы статьи кажутся странными.
1. IPC не может точно указывать во что упёрлась программа — есть разные причины простоя и на разветвлённом плохо предсказываемом коде можно получить IPC < 1 даже имея все данные в кэше. Низкий IPC указывает на архитектурные простои любой природы (неверная спекуляция, нехватка ресурсов, задержки в доставке операндов и т.п.).

2. На IPC не имеет смысла смотреть пока нет уверенности, что программа достаточно хорошо оптимизирована — на ранних этапах оптимизации макро-эффекты (неэффективные последовательности инструкций в силу неудачного алгоритма, размещения данных или кодирования) имеют гораздо больший эффект. Более удачная организация алгоритма и структур данных может дать как сокращение числа инструкций, так и снижение нагрузки на память (за счёт более эффективного кэширования) и может повлиять на IPC в любую сторону. Основной метрикой при оптимизации должны быть попугаи специфичные для приложения, а IPC лишь вспомогательный инструмент не очень полезный сам по себе (см.3).

3. Не все IPC одинаково полезны — в AVX2 одна F32 инструкция FMA делает 16 операций, но в IPC она учтётся как одна инструкция. Цикл её заменяющий запросто может дать более высокий IPC, но FLOPS (попугаи приложения Linpack) от него будет гораздо меньше. Да и в более простом примере movl (%rax), %rbx, add %rbx, %rdx — это 2 инструкции, а add (%rax), %rdx — одна, но более высокий IPC для первого случая (скорее всего время выполнения для обоих случаев будет одинаковым, но инструкций в первом случае больше) не транслируется в более высокую производительность.

Оптимизация на уровне IPC всегда должна делаться с оглядкой на исполняемый код (ну может кроме случая, когда цель — это повысить температуру в помещении за счёт загрузки процессора).

vitaliy2 23 мая 2017 в 11:05

Думаю, нужно отметить, что на картинке «А на самом деле это выглядит вот так» подразумевается, что количество виртуальных ядер равно количеству физических, и кроме памяти нет никаких других shared-ресурсов.

К примеру, если система репортит 90% при 2 потоках на ядро, то на самом деле это порядка 99% нагрузки (полезная + холостая). И это при том, что нет никаких других shared-ресурсов. А они есть (но правда их может частично компенсировать SMI, уменьшая отношение холостой к полезной работе). Как-то так. В общем как минимум всё сложнее, чем на картинке.

Roman_Cherkasov 23 мая 2017 в 11:05

Уважаемые, а есть ли подобные(tiptop) инструменты для семейства Windows? Очень интересно было бы посмотреть на данные от видеоигр. А то по YouTube со стародавних времён гуляет холивар по поводу разгона FX 8xxx серии. Люди на 2 лагеря разделились, одни считают что стоит разгонять RAM, а другие считают что разгона ядер достаточно. Думаю что подобный инструмент разрешил бы часть споров по этому поводу.

DustCn 23 мая 2017 в 12:48

Тут надо не в IPC смотреть, а профилировать с учетом сколько меморийного бандвизя у вас остается после разгона ядер, если вы считаете что в РАМ уперлось.

DustCn 23 мая 2017 в 12:39

>Если у вас IPC > 1.0, то ваше приложение страдает не столько от ожидания данных, сколько от чрезмерного количества выполняемых инструкций.

Это больно слышать для компаний, выпускающих процессоры.
Чем выше IPC тем лучше процессор справляется с выполнением команд, тем лучше компилятор их сгенерировал. А вы говорите что это плохо. Окститесь!

Дальше идет какой то пи**ец, который я даже не буду тут приводить.
Приложения бывают разные — синие, зеленые и красные. Есть понятие локальности данных, для разных алгоритмов она разная. Низкий IPC для кода с высокой локальностью данных — показатель говнокода. Пример — если у вас IPC 1.0 на перемножении матриц, значит что то пошло не так.
С другой стороны приложения с низкой локальностью — спарс матрицы например, да еще и неупакованные — то все, приложение висит на латентности памяти, и высокий IPC там не достижим.

Называть же IPC показателем платформы — это мягко говоря странно. У CPU есть свой предельный IPC определяющийся тем, сколько у него независимых портов на исполнение. Но это оценка сверху, выше которой уже не прыгнуть.

Короче высокий IPC — это хорошо!

-1

madkite 23 мая 2017 в 16:59

Если у вас IPC < 1.0, то я вас поздравляю, ваше приложение простаивает в ожидании данных от оперативной памяти.

А разве все инструкции выполняются за один такт? Разве не существует инструкций которые выполняются несколько таков и т.о. даже при отсутствии ожидания среднее количество инструкций на такт будет меньше 1?

Loginin 23 мая 2017 в 18:03

Из-за конвейерного исполнения темп поступления/завершения инструкций (throughput) может быть выше чем скорость их исполнения (latency). БОльшая часть инструкций в современных процессорах может стартовать/завершаться с темпом одна инструкция за такт на порт и именно количество завершенных инструкций показывает IPC. Но есть и медленные инструкции, которые не могут стартовать каждый такт на одном порту, а также бывает, что внутреннего параллелизма вычислений не хватает для загрузки конвейера (свежие инструкции ждут результатов от исполняющихся). Тогда длительность исполнения инструкций начинает играть роль и IPC закономерно падает.

f1inx 24 мая 2017 в 11:59

Поправляю опечатку, на всякий случай, latency — это задержка (время) выполнения инструкции (и вообще чего либо) а не скорость.

Loginin 24 мая 2017 в 18:50

Ну да, неточно выразился, спасибо. latency для инструкции — это время её исполнения от постановки на исполнение до выработки результата.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий