DreamWalker Nov 20 2013 at 08:54

Cache-Conscious Binary Search

6 min

11K

Enterra corporate blog.NET*Algorithms*C#*

+45

Comments 12

Danov Nov 20 2013 at 10:36

Интересное решение. Любопытно было бы глянуть, насколько оно отстает от B-tree, которое не только на диске можно использовать, но и для работы с кэшем.

deilux Nov 20 2013 at 11:32

Разве это не одно и то же?

UFO just landed and posted this here

Danov Nov 20 2013 at 12:36

Тут бинарное дерево. В общем случае B-ttree не бинарное. В-дерево оперирует страницами на которых может быть с десяток элементов, а не два. Кол-во элементов нужно определить исходя из длины кэшлайнс. Причем любопытно поэкспериментировать со строками L1,L2,L3. Еще можно поэкспериментировать с чередующимся порядком элементов и ссылок, и сравнить с раздельным хранением элементов и ссылок.

deilux Nov 20 2013 at 13:37

Ах, да. Не одно и то же. Меня сбил с толку префикс «B» :-(

Danov Nov 20 2013 at 14:33

Кстати, типичная ошибка, принимать B-tree как binary tree. Это логично, когда начинают изучение с двоичных деревьев.

Сами авторы никогда не раскрывали смысл буквы B, но у одного из них фамилия на B начинается (Rudolf Bayer, Ed McCreight) и работали они в то время в Boing. Еще были версии «balanced,» «broad,» or «bushy».

Еще можно обратить внимание, что полный функционал B-tree избыточен для условий задачи. Автор зафиксировал, что на входе неизменный набор данных, т.е. есть время на то чтобы его оптимально упорядочить один раз и затем многократно использовать.

darkdimius Nov 20 2013 at 15:33

Всегда считал что B означает Block.
Те Block-tree, ведь оперирует блоками

MikeMirzayanov Nov 20 2013 at 14:32

Есть такой трюк. Если надо бинпоиском поискать в массиве длине n, то можно разбить его на sqrt(n) блоков по sqrt(n) элементов. Затем бинпоиском за log(sqrt(n)) подыскать нужный блок и в нём вторым бинпоиском за log(sqrt(2)) найти элемент. В сумме получается всё тот же log(n), но попаданий в кэш значительно больше, т.к. каждый раз ищем на довольно коротком массиве длины sqrt(n).

DreamWalker Nov 20 2013 at 15:12

Спасибо за интересный трюк! Добавил его в пост.

relgames Nov 20 2013 at 15:46

Для ускорения отсеивания тех чисел, которых в списке нет, можно использовать фильтр Блума

Но в вашем конкретном случае вы используете int, который 32х битный. Это будет 256 мегабайт, если хранить все в битовом массиве. Если таких массивов не много, то можно вполне обойтись таким решением. Понятно, все зависит от задачи.

DreamWalker Nov 20 2013 at 15:57

Согласен, фильтр Блума хорош для своих задач.
Но в данной статье я не рассматривал различные подходы к решению рассматриваемой задачи, мне хотелось просто немного рассказать про Cache-Conscious Data Structures, а бинарный поиск взят в качестве июллюстрации ввиду его простоты.

1dash Nov 20 2013 at 17:27

Есть ещё дружественное кэшу семейство Judy контейнеров: en.wikipedia.org/wiki/Judy_array