PatientZero May 20 at 11:00

Двоичный поиск против вероятностного

Easy

7 min

6.6K

Programming*Algorithms*Database Administration*

Review

Translation

+28

Comments 11

nin-jin May 20 at 11:56

С поиском-то всё понятно, а как быть с добавлением данных? Повсеместно используемый в СУБД B-tree использует букеты, выстраивая их в самобалансирующееся дерево, что неизбежно приводит к логарифмическому поиску. Причём далеко не бинарному, то есть степень логарифма не 2, а исчисляется десятками, а то и сотнями. Предложенный же тут алгоритм работает лишь на плоских списках. А если его применять к не плоским, то вновь выползет логарифм на доступ к каждому элементу. Для равномерно распределённых данных таким образом лучше подходит какой-нибудь trie, который по префиксу очень быстро скачет по букетам, и поиск в котором для фиксированной длины ключа даёт константную сложность.

janatem May 20 at 13:49

Причём далеко не бинарному, то есть степень логарифма не 2, а исчисляется десятками, а то и сотнями.

Так наоборот же — чем больше основание логарифма, тем лучше, быстрее получается. Собственно, основная фишка этих B-tree состоит в том, чтобы сделать деревья пошире и уменьшить глубину.

nin-jin May 20 at 13:55

О том и речь..

Zara6502 May 20 at 13:07

так я гений получается? я так искал данные в массивах еще в конце 90-х, важных два условия - они должны быть отсортированы и нормально распределены.

yrub May 20 at 17:04

может равномерно?)

yappari May 20 at 17:43

Надо полагать, что это не принципиально, коль скоро известен закон распределения (аналитическая запись).

Zara6502 May 21 at 08:17

да, вы правы, но ниже тоже верно заметили что при наличии информации о распределении можно легко настраивать "равномерность".

lea May 20 at 15:07

Вроде это интерполяционным поиском называют...

yrub May 20 at 15:39

Датасеты состояли из отсортированных случайных целых чисел, что может служить достаточно точным представлением наших данных.

может служить, а может и нет. помню на это как-то обращал внимание Миловидов, что для тестов базы лучше брать реальные данные, а не рандомные, по крайне мере для строк

VADemon May 20 at 18:05

Некогда здесь на Хабре была огромная статья с тестом разных алгоритмов сортировок. Вроде бы и разно сгенерированные данные тоже были, чтобы понять, какой алгоритм на (не)случайных данных хорош.

h1pp0 May 21 at 01:47

Выше уже писали, что это похоже на интерполяционный поиск. Добавлю:

Это старый метод, у Кнута уже был.
Асимптотика известна, это не константа, а O(log log N)
В чистом виде обычно не применяется, но может быть полезен на первых X шагах, потом уже двоичный.

Show the best of all time