Sivchenko_translate19 янв в 21:34

Всего одна строка кода, из-за которой 24-ядерный сервер стал работать медленнее ноутбука

13 мин

45K

Программирование * Параллельное программирование * Ненормальное программирование * Rust * Базы данных *

Перевод

+64

Комментарии 15

AndreyDmitriev 19 янв в 22:07

У интеловских камушков есть соответствующие счётчики производительности, которые можно получить, там можно всё что угодно посмотреть - от промахов по кэшу любого уровня до промахов предсказателя переходов и даже отдельную инфу о количестве инструкций, что летят через порты можно вытащить, надо только уметь пользоваться. Иногда в "мистических случаях" помогает и экономит время, иначе приходится лишь гадать по изменению поведения на те или иные изменения кода.

evarexel1987 20 янв в 01:59

Хороший пример того, как проблема годами живёт, пока нагрузка не вырастет и не вскроет всё сразу. А какие метрики вы бы советовали смотреть в первую очередь, чтобы такие вещи ловить раньше?

zasyadko 20 янв в 02:14

Вот если бы еще в заголовках авторы указывали предмет статьи, то другие бы люди не тратили зря своё время на подобные опусы

mayorovp 20 янв в 06:25

Уже переводили же: https://habr.com/ru/companies/mvideo/articles/649009/

MountainGoat 20 янв в 09:37

Всё ещё веселее, если вспомнить что сейчас пошли процессоры, в которых раздельный кеш L3 для групп ядер. Соответственно, если на них запустить по потоку на ядро с общим атомарным значением, то каждый поток каждый раз будет читать его из оперативки.

sdore 20 янв в 10:57

Группы таких процессоров, к слову, даже представляются раздельными NUMA-доменами в ACPI.

AndreyDmitriev 20 янв в 11:42

В принципе даже раздельность L1 и L2 кэшей уже влияет. Вот тут в комментарии спин ожидание в двух конкурентных очередях мы как раз обсуждали ускорение спинлока на гипертредированных ядрах за счёт того, что у них кэш общий на пару. У меня нет процессора с раздельным L3, но есть гибридный i7-13850, и там этот эффект точно также наблюдается. Ну то есть если спин лок на двух раздельных E ядрах запускать, то разница более чем шестикратная (там, конечно, ещё сильно влияет низкая производительность Е ядер, но тем не менее):

Код там выше в комменте был.

PickaPickaMan 20 янв в 15:14

Именно. При разделенном L3 это уже не просто контеншен, а постоянные промахи кэша и походы в память из-за когерентности. Особенно если значение часто инкрементится

mpa4b 25 янв в 21:43

если у вас несколько независимых кешей, а выше них ничего нет (оперативка), то обычно когерентность делается либо снупингом (операции одного кеша c озу предварительно запрашивают все остальные кеши на предмет пересечений), или же поддерживается центральная "директория", которая хранит, какие кеш-линии и в каких состояниях (те самые modified-exclusive-shared-invalid) находятся во всех кешах. Просто так оперативку никто дёргать при конфликтах не будет, кеши между собой гонять будут эксклюзивную кеш-линию скорее.

PickaPickaMan 20 янв в 15:12

Здесь прям классика про ложную уверенность в атомиках. На одном сокете оно еще терпимо, а на двух сокетах кэш-линия со счетчиком начинает мигрировать и превращается в точку сериализации. Особенно когда клонирование Arc происходит на каждом вызове

VladimirFarshatov 20 янв в 16:46

Почитал, спасибки интересно. Только не очень понял как ноутбучный проц с 4 ядрами, при общем кеше тоже L3 вытащила 8Моп/с? Общий кэш, как понимаю, того же третьего уровня. Что дало бы тестирование исправленного кода на ноутбуке тогда?

vadimr 20 янв в 17:38

21 век на дворе, а у людей дальше счётчика ссылок мысль не работает. Я критику счётчика ссылок как метода управления памятью читал, помнится, ещё в книге Пратта 1970-х годов. Но программирование же наука не дворянская, и так сойдёт.

AndreyDmitriev 20 янв в 17:45

Это тот Пратт, который из алгоритма Кнута-Морриса-Пратта? О какой конкретно книге идёт речь, если не секрет?

vadimr 20 янв в 17:51

Другой Пратт, Терренс. "Языки программирования: разработка и реализация".

Riketta 24 янв в 16:05

Кому интересна тема, вот хорошая точка входа - What Every Programmer Should Know about How CPUs Work - Matt Godbolt, 2024.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий