Comments / Profile of ReeseE / Habr

User

Profile Publications Comments 42Bookmarks

C++ велосипедостроение для профессионалов

ReeseE Apr 3 2018 at 18:05

Помимо рассмотренных вами приложений, работающих с небольшими наборами данных, есть приложения, где узкое место — память, и активный датасет занимает несколько мегабайт.

Смысл в том, что реальность она сложнее. В ней нет такого понятия как «узкое место — память» — у памяти есть совершенно разные места, которые могут быть узкими.

Как мы уже выяснили — есть две основные метрики — летенси и трупут. Причём они не определяются примитивными определениями уровня «последовательное — трупут, а рандомное — летенси», как многие делают. Это фундаментальное-противоположные вещи, с совершенно разными свойствами.

Всё это можно определить через уровень параллельности конкретной задачи. И в зависимости от этого уровня — всё может очень сильно меняться. Допустим, как я уже говорил, вычисления — это, в основном, хорошо распараллеливаемые задачи( не нужно ограничивать параллельность потоками ОС). Это задачи упирающиеся в трупут — нет смысла приводить какие-то цифры, которые никакого отношения к данному кейсу не имеют.

Кейсы с хорошим уровнем параллелизма могут быть и memory-bound, и какими угодно. Это не значит, что они упираются в вычисления.

В таких приложениях, дополнительно наращивая объёмы данных, которые надо хранить в кеше, вы вытесняете что-то полезное из l1/l2/l3.

В кеше хранятся активные данные. Если данные неактивные — они ненужны. Это ничего не изменит. Если мы не хотим вытеснять данные из кеша — мы вообще НИЧЕГО не должны читать из памяти(кроме активного датасета). Любое чтение — вытесняет нужны данные.

Естественно, что никто и никогда не использует весь кеш, именно поэтом в нём останется это один уровень, который будет забиваться временными данными. И это абсолютно ни на что не повлияет.

И опять же, всё неправильно — активный датасет в несколько мегабайт вообще никак не зависит от llc, от l2 — влезет в l3 — зависит от l3.

В данном случае меньшие кеши имеют только одно применение — кешировать некие часто используемые данные и тут будет такое же вытеснение одного way.

Какое влияние кеши меньшие кеши могут оказывать только тогда, когда наша задача состоит из подзадач, в рамках которой много раз перечитываются данные в рамках малого датасета. Такого очень мало.

Реально подобный случай — это банальная оптимизация скалярной лапши. Смысл очень просто. Когда мы попадаем в тот же l2 — данные( а именно кешлайн) мигрируют в l1d, а т.к. скалярный лапша читает данные по 1/2/4/8 байт, то в рамках последовательного чтения — мы перечитываем этот кешлайн множество раз, до 64. Если бы он не мигровал в l1d, то мы бы множество раз читали куски из l2, что явно хуже

С учётом некой параллельности( в простонародье prefetch) — нам желательно читать сразу несколько кешлайнов. На самом деле тут и l1d не нужен — хватит буферов, но мы не об этом.

И казалось бы — мы нашли подходящий кейс, но нет — ему не нужен весь l1d — ему хватит десяток кешлайнов. Остальной кеш ненужен и ни на что не влияет.

Всё это к чему? А к тому, что очень сложной придумать кейс, в котором 1way будет не временным. Всё то, что кажется подходящим — лишь кажется.

На самом деле всё как раз наоборот — основная проблема таблицы не в том, что она захламляет кеш — нет. Это почти всегда не так. Проблема её именно в том, что её может не быть в кеше, а значит — мы словим деградацию. Но на это можно так же забить. Если у нас таблица настолько ненужная, что её нет в кеше, то её производительность вообще никак не влияет на программу.

И вот у нас есть выбор. Даже если случится так, что мы проиграем в паре вызовов диву, но — это будут те случаи, которые никак не влияют на производительность нашей программы. А вот в случае частого использования — она будет в кеше, не будет его тратить( за очень-очень редкими исключениями), но при этом будет давать профит. А раз она используется часто, то и влияние на производительность нашей программы оказывает весомое.

В конечном итоге, к чему это? Всё очень просто — таблица( если она имеет реальный профит, а это имеет, да и ещё какой( до пары порядков профита)) — лучшее решение.