MaxRokatansky 29 мая 2023 в 15:22

Глубокое погружение в LSM-дерево

6 мин

12K

Блог компании OTUSАлгоритмы*

Перевод

+12

Комментарии 7

dyadyaSerezha 29 мая 2023 в 21:47

Непонятно главное, как в дереве происходит эффективный поиск по ключу. Перебор всех SST-таблиц с использованием фильтра Блума? Но он даёт лишь вероятности.

m03r 29 мая 2023 в 22:34

Фильтр Блума — это, условно, побитный OR по хешам элементов. Он позволяет быстро проверить отсутствие, но не гарантирует наличие в случае попадания.

Таким образом, насколько я понимаю, среди таблиц-кандидатов достаточно бинарным поиском посмотреть индекс (где ключи сортированы).

И объединение SSTable не требует пересортировки данных, потому что слияние индексов выполняется за линейное время.

dyadyaSerezha 30 мая 2023 в 05:13

Побитный OR выдаст почти все единицы даже с небольшим кол-вом ключей, так что все равно непонятно. Но ладно, замнем для ясности)

m03r 30 мая 2023 в 12:50

Это смотря какая хеш-функция. Формально это определено, как «семейство k хеш-функций, каждая из которых возвращает число от 1 до m, где m — количество разрядов в фильтре», но мне удобнее представлять это семейство как одну хеш-функцию, чьё бинарное значение разрядностью m никогда не содержит более k единиц.

dyadyaSerezha 30 мая 2023 в 13:01

Но тогда для редкого false positive случая (что ключ может быть в этой таблице) отношение m к k должно быть большим, а желательно очень большим.

thelensky 31 мая 2023 в 12:47

Не понятно как эта структура справляется с выборкой по нескольким параметрам, как организована эта часть?

QtRoS 3 июн 2023 в 09:06

Статья скорее тянет на обзор, чем на глубокое погружение.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий