Mikhus Dec 19 2008 at 20:19

Иерархические структуры данных и производительность

14 min

23K

Website development *

+117

Comments 27

AlexSpaizNet Dec 19 2008 at 20:30

Позновательно! +

maxshopen Dec 19 2008 at 20:59

Это не познавательно. Это офигенно. Из-за таких статей я(и думаю многие) пришел на Хабр.
Это огромная работа написать такой хороший топик, одни процедуры чего стоят.

Автор, спасибо!

trevel Dec 19 2008 at 21:31

Хабр уже тот

AlexSpaizNet Dec 20 2008 at 03:08

Извини за ошибку, 5 классов закончил прежде чем уехал в (не важно)

Статья супер это и так понятно, просто выразился менее эмоционально…

hell Dec 19 2008 at 20:35

Было бы интересно провести тест при параболическом распределении узлов. т.е. вначале детей немного, потом количество резко увеличивается, а потом падает. IMHO, такое распределение больше приближено к жизни. Впрочем, полагаю, реально картина если и изменится, то не сильно.
А еще есть пара полезных операций — как то смена порядка следования детей внутри родительского узла (и лучше смена на произвольное количество позиций), а также копирование ветки (то есть добавление в середину дерева не узла, но ветви произвольного размера).
P.S. алгоритмы AL можно серьезно оптимизировать, добавив level и havechild (тот же самый уровень и признак наличия потомков) Происходит некоторое замедление добавления (принудительный апдейт или апдейт с проверкой), удаления и апдейта (на отдельных операциях — ровно на проверку а остались ли еще дети).

Mikhus Dec 19 2008 at 20:59

На самом деле закон распределения не имеет такого сильного значения. Нас ведь в любом случае будет интересовать производительность в точке, в которой сосредоточено максимальное кол-во узлов, поэтому просто важно знать какой он. Есть две крайности — равномерное распределение и распределение с явным большим перекосом. При этом заведомо понятно, что при равномерном мы получим стабильное но не самое высокое время отработки. А в случае с перекосом мы увидим пик нагрузки. А где будет этот перекос — в начале, середине или в конце дерева не столь суть важно, если он существенный.

wersoo Dec 19 2008 at 20:50

Эхх… вот прям недавно задолбался, искал полную и подходящую инфу по этой теме, в итоге сделал не очень рационально. Чуть бы раньше эту статью

UFO landed and left these words here

nekt Dec 19 2008 at 21:58

Воппрос на тему используемых баз данных — не пробовали ли вы протестировать эти алгоритмы на других базах данных? Я думаю что производительность будет очень сильно разниться.

Mikhus Dec 19 2008 at 22:21

Думаю, что будет. Но — нет — не пробовал, к сожалению.

nekt Dec 19 2008 at 23:02

К чему я спрашиваю. У нашей команды есть спецефическая задача — поиск по объектным структурам в базах данных. Мы там храним объекты. После исследований на эту тематику оказалось что постгресс позволяет благодаря своим разнообразным типам данных в число которых входят хэши, ускорить этот поиск в 5-10 раз.

Плюс вложеннные запросы в нем обрабатываются гораздо лучше — при поиске в базе из 100000+ элементов 3-уровневая связанность обрабатывается около 70мс. 9-уровневая связанность же окло 90мс.
в
Вобщем рекомендую попробовать.

Mikhus Dec 19 2008 at 23:10

Спасибо, я попробую. Тем более что с постгресом довольно часто работаю.

zaartix Dec 19 2008 at 22:27

статья супер, побольше-бы такого материала на хабре. Автору спасибо, ждем продолжения

gremlin Dec 19 2008 at 23:14

в избранное, сразу же.
спасибо

t0os Dec 20 2008 at 00:03

Прошлую статью прочитал мельком. Увидев эту, сел перечитывать прошлую еще раз, дабы все по полочкам разложить.

Спасибо за громадный труд.

UFO landed and left these words here

infom Dec 20 2008 at 07:37

Работа серьезная, но хотелось бы отметить что в реальной практике редко бывает такое, чтобы необходимо было выбрать что-то одно из представленных типов структур.
По собственному опыту говорю, что зачастую изначально строиться AL, затем туда добавляются Path из MP и возможно что-то из NS. Причем основные операции проходят через AL структуру, а специфичные задачи используют, то что нарастили из других структур.

prosto_dima Dec 20 2008 at 09:17

Спасибо за проделанную работу. Маленькое замечание: в легенде к графикам слишком узкие полоски, поэтому цвет непонятен, и сделайте цвета поконтрастнее относительно друг друга.

RomanL Dec 20 2008 at 14:17

Спасибо за исследование, мальком просмотрел — вникну позже.
Сам на маленьких деревьях (до 1000 узлов) тупо гружу их в память и уже там разбираюсь что к чему… в приложениях FastCGI + кэширование, думаю, ни один SQL-подход не сделает быстрее.

akzhan Dec 20 2008 at 17:43

Жаль, что не было сравнения соструктурой, где путь формируется второй таблицей (nodeAndItsAncestors).
При вставке узла в эту таблицу вставляем

insert into nodeAndItsAncestors(id, parentId) values(@id, @id);
insert into nodeAndItsAncestors(id, parentId) select @id, parentId from nodeAndItsAncestors where id = @parentId;

Все выборки по дереву легко выполняются именно по этой таблице.

maxic Dec 21 2008 at 12:42

Что хочется сразу сказать.

Реализации алгоритма MP — ужасающа. Поэтому и результаты такие.

Какая может быть «скорость», при все время «вычисляемых» результатах ;)

Ну нельзя пользоваться в mysql строчными функциями при «вычислениях» полей.
Кстати MP самый малоизученный алгоритм, поэтому и получилось «такое».

Поэтому результаты не считаю правильными и обьективными, так условия теста получаются не равные ;)

Mikhus Dec 21 2008 at 13:07

Напротив, вы говорите об оптимизации, о которой я пообещал рассказать далее. А это результаты тестов алгоритмов в «чистом» виде.

maxic Dec 21 2008 at 15:49

Тогда ждем оптимизации. Наверно я немного поспешил ;)
Я написал, что то что написано про MP в сети, в 90% случаев, мягко говоря, не соответствует понятию — реализация алгоритма :)

Ждем оптимизированные реализации алгоритмов

easterism Dec 22 2008 at 13:58

Автор, ты просто молодец. Я отослал ссылку на пост всем заинтересованным друзьям и сам добавил в избранное. Большое тебе хабраСпасибо (уж прости, что просто «спасибо»)

boolive Mar 28 2009 at 23:39

Я что-то не пойму, неужели Adjacency List быстрее всех в разы? ради чего тогда создавались алгоритмы NS и MP?? Только чтоб избавится от лишних джойнов в запросах?

boolive Mar 28 2009 at 23:43

Ну только наследников долго ищет :)) а в других тестах…

Mikhus Mar 29 2009 at 10:12

Выбрать все дерево (рекурсивно), поиск наследников, обход дерева — проблемные операции для AL, тут он существенно уступает другим алгоритмам