Comments / Profile of NKulikov / Habr

Nikolay Kulikov @NKulikov

Solution Architect

Оптимизация производительности серверов на базе Epyc

Проблема в деньгах, очевидно.

Это не очень очевидно, потому что много маленьких серверов может стоить дешевле, чем 2 больших (как минимум из-за меньшего резерва в %). И вообще все сводится к тому, что надо просто считать, а общие рекомендации остаются прежними - считаем какие нужны ядра -> считаем сколько нужно ядер -> считаем сколько нужно серверов.

В статье имелось ввиду, что лучше не заниматься оверселлингом нагруженных процессов/виртуалок, на нескольких высокочастотных ядрах, а лучше взять много дешёвых низкочастотных ядер.

Я как раз сильно против такого общего утверждения. По многим причинам:

1.) как я писал, переподписка уровня 2-4 к одному - нормальная, стандартная и широко распространённая практика. Особенно если мы говорим про Enterprise, где на это значение можно влиять.

2.) Сама по себе переподписка ни о чем не говорит. Если взять в пример тот же VDI, то там рекомендации СТРОГО обратные - высокочастотные и малоядерные CPU c большой переподпиской. Просто из-за того, что VDI нагрузки имеют малопоточный характер, сильно зависят от частоты одного ядра, но при этом редкие и spike-like, т.е. переподписка не сказывается на работе. Серверных нагрузок со схожим профилем тоже более, чем достаточно.

3.) Дело в том, что добавить ядер можно и потом при необходимости путем добавления сервера, а вот добавить частоту существующим ядрам невозможно.

то вообще не универсальный показатель, он относится только к некоторым гипервизорам.

Это не суть важно. CPU Ready - у VMware, Steal Time у KVM, CPU Wait Timer Per Dispatch у Hyper-V. Смысл одинаковый в данном контексте.

Да, так и есть. Поэтому на высоконагруженных системах на этот авторазгон можно и не рассчитывать.

Если у вас загружены все ядра, то C-state в них не будет. А значит и толку от отключения C-States нету.

Меня смущает тот факт, что производитель CPU явно пишет, что он настоятельно не рекомендует отключать эту штуку во всех случаях, за исключением latency-sensitive workloads (тут все понятно). Вы же советуете строго обратное без (на мой взгляд) достаточного обоснования этому. Более того, если посмотреть Best Practices производителей серверов (вот, например Lenovo), виртуализации (вот, например VMware), то там тоже рекомендация не отключать C-States по умолчанию.

А если используется практически для любых вычислений, то память будет неизбежно узким местом.

Вы пишите, что это очевидно, но это не очевидно. Давайте я приведу вам аргументы:

1.) Если производительность General Propose (еще раз, да я понимаю, что существуют задачи чувствительные к полосе RAM. Но многим наплевать, и они реагируют на latency обращения к RAM, а не полосе), в ОБЩЕМ случае зависит от полосы пропускания, то должна быть прямая корреляция между полосой RAM на CPU и общей производительностью системы. Теперь мы берем последние несколько поколений CPU и видим - AMD 7001/7002/7003 (8 x DDR4-3200) = 204.8 GB/s, AMD 9005 (12x DDR5 4800) = 460GB/s, Intel Xeon Cascade (6 x DDR4-2933) = 140 GB/s, Intel Xeon Ice Lake (8 x DDR4-3200) = 204 GB/s, Intel Xeon Sapphire (8 x DDR5-4800) = 307 GB/s, Intel Xeon Emerald (8 x DDR5-5600) = 358 GB/s. Таким образом, мы видим, что 9005 больше, чем в два раза быстрее, чем 7003 или Ice Lake. Теперь мы смотрим на известный тест производительности системы виртуализации VMMark как раз с разнообразной, но относительно реалистичной нагрузкой. Находим там две максимально близкие системы, обе на 4 сервера с 1 CPU по 64pCore, etc. Только одна на 7763 (2.45GHz, 16x64GB 3200=205 GB/s), а вторая на 9554P (3.1GHz, 12x 128GB DDR5-4800=460GB/s). Так вот разница между ними порядка 15%, что вполне вписывается исключительно в разницу по IPC и росте базовой частоты. И несмотря на то, что RAM быстрее в x2.25 раза, такого же роста производительности не видно даже близко. Более того, в реальной жизни так же не наблюдал какого-то кардинального роста производительности при смене поколения (которое увеличивает полосу RAM) при том же числе ядер на той же частоте.

2.) Полоса на CPU обычно одинаковая в рамках одного семейства. Но в одном семействе очень разное число ядер. Нас, очевидно, волнует полоса per Core. Тогда если все определяется полосой RAM, то нам нужно брать максимально мало ядерные CPU (скажем 16 ядер) и тогда они будет сильно быстрее, чем 96pCore.

Я как бы не спорю с тем, что при конфигурации сервера стоит использовать все каналы. Это очевидно. Но я сомневаюсь с утверждениями о том, что полоса памяти — это ключевое, что определяет производительность, как вы говорите.