retYrn0 Aug 2 2016 at 07:51

SMAS: «Отсортированная мульти-массивная структура» (Sorted Multi Array Struct) — альтернатива бинарному дереву поиска

6 min

5.5K

Algorithms *

From sandbox

Comments 91

lair Aug 2 2016 at 08:06

я не использую никаких комментариев в коде — там всё достаточно просто и не содержит ничего кроме работы с массивами, циклов и ООП-идеологии — всё до безумия просто.

Угу.

if(key1[i1]<key2[i2]){key0[i0]=key1[i1];val0[i0]=val1[i1];i0++;i1++;}
else{key0[i0]=key2[i2];val0[i0]=val2[i2];i0++;i2++;}

OldFisher Aug 2 2016 at 08:07

ведь если добавлять новые элементы (удалять старые), то массив скажет: «ломай пересортируй меня полностью»

Массив скажет «найди нужное место и сдвинь хвост». Это тоже не сахар, но всё же намного лучше полной сортировки. У поиска сложность логарифмическая, у сдвига, очевидно, линейная плюс амортизация расширения.

retYrn0 Aug 2 2016 at 08:30

Спасибо за комментарии, действительно слегка спутал терминологию. Я имел в виду пересортировку случая двух уже отсортированных массивов в один — так же линейная сложность, хотя да, терминология — это не моё). Извиняюсь, первая публикация, пока не набил руку. Если необходимо, могу написать комментарии к коду, просто кода не так много и сама идея алгоритма изложена. Код — исключительно для указания на работоспособность метода.

ptyrss Aug 2 2016 at 08:31

У меня есть идея по удалению — пометить удалённым, и просто игнорировать при поиске (используя компаратор по исходным полям), при следующей пересортировке удалить (используя компаратор, который считает элемент бОльшим, если он удалён).

По поводу сложности, время на поиск — O( K log (N/K) ) = O(K (log N — log K) ) где K — число массивов. Отсюда если мы хотим сложность порядка log^2(N) то K должно быть порядка log N, что вполне логично. Удвоенная сложность почти бесполезна — это всего 2 массива.

Если сравнивать с деревом (например Декартово). То с такой ассимптотикой можно вообще не делать балансировку, когда всё станет плохо перестроить дерево (перестроить можно не больше чем за M log M). Учесть что это дерево (помним, у нас же случайные веса) вырождается крайне редко то в целом думаю будет быстрее чем log^2.

В практических целях, думаю реализации в stl или иной библиотеки дерева (хеш-таблицы) уже содержат неплохую балансировку и писать свою реализацию большого смысла не имеет, больше багов наделаете чем пользы будет. Кстати почему у вас такой странный код в строчках (метод void upd() )

if(i1<len)
        {
            if(i1<len)

А метод достаточно оригинальный, спасибо за идею.

retYrn0 Aug 2 2016 at 08:56

Спасибо за замечание по коду — действительно при редактировании видимо не то скопировал, во втором условии должен стоять 2-й счётчик. Поправил.
Удаление — действительно я так же склонялся к флагу удаления, при обновлении массива просто «перешагивать удалённое» — дело возможной будущей реализации.
Время на поиск… в моей задаче речь шла о 64-битных числах. По представлению это будет логарифмическая проверка каждого уровня массива. С учётом того, что каждый предыдущий уровень содержит в 2 раза меньше элементов — так же логарифмическая закономерность, то видится достаточно не плохое время выполнения. Исходная задача была — снизить overhead памяти при приемлемом замедлении поиска — вставки, в конкретном случае моей задачи эта структура себя оправдала и видится, что есть потенциал развивать идею дальше — собственно причина публикации. Возможно читающие увидят ещё варианты и совместными усилиями удастся сделать нечто крутое)
Асимптотика декартового дерева — действительно интересная тема обсуждения. Но опять же в моей конкретной задаче была необходимость максимального снижения overhead и тягать вероятностные параметры исключалось. И предсказуемая «реальная» сложность алгоритма всё-таки хорошо. Ведь в маловероятном случае декартово дерево всё же выродится, а здесь всё предсказуемо. Но спасибо за комментарий, есть над чем подумать.

lair Aug 2 2016 at 09:53

С учётом того, что каждый предыдущий уровень содержит в 2 раза меньше элементов — так же логарифмическая закономерность, то видится достаточно не плохое время выполнения.

Неплохое — это какое (в терминах big-O)?

retYrn0 Aug 2 2016 at 10:20

По-идее это будет k*log(N). Но один из комментариев натолкнул на идею сортировки и самих массивов, тогда можно прийти к логарифмической сложности. В общем нужно думать.

lair Aug 2 2016 at 10:23

А k — это что? Ну и да, "по идее" — это, конечно, хорошо, но где реальный анализ?

retYrn0 Aug 2 2016 at 10:44

K — количество уровней(аналогично с деревьями). Основной плюс — экономия памяти. Текущая версия 1.0 ну или бета и имеет куда расти(один из комментаторов подкинул идею) — можно добиться логарифмического времени, если и сами подмассивы будут отсортированы(в ближайшем будущем попытаюсь это реализовать). Реальный анализ ещё не проводился(пока нет времени), но при желании любой желающий сможет это сделать сам — работающий код приводится. Если память важнее, то каждый сам может решить, есть ли смысл. Моё дело было — подать идею на общее рассмотрение. По пути комментирования может будет создано что-то крутое, ибо здесь люди не глупее меня и если вникнуть в общие положения идеи, то наверняка смогут предложить какие-то хорошие доработки. Это скорее не алгоритм, который вытеснит деревья в принципе, а скорее вектор, по которому можно обнаружить нечто новое, надеюсь на понимание.

lair Aug 2 2016 at 10:49

K — количество уровней(аналогично с деревьями).

В деревьях, извините, используется h. И как зависит k от n?

Основной плюс — экономия памяти

… и какие же у вас — в терминах big-O — требования к памяти?

Реальный анализ ещё не проводился(пока нет времени), но при желании любой желающий сможет это сделать сам — работающий код приводится

Извините, но качество вашего кода таково, что делать по нему анализ нет никакого желания. Не говоря уже о том, что для таких алгоритмов обычно считают на псевдокоде.

retYrn0 Aug 2 2016 at 11:10

Хорошо, я не заставляю никого ничего проводить. Статья ориентирована на идею. Если человек увидит в идее смысл, то без проблем реализует лучше и понятнее меня. Я алгоритмист. Если Вам не нравится код, то вы можете использовать данный класс исходя из идеологии «Чёрного ящика», и использовать ИМХО понятные методы get и set, или же просто проигнорировать. У меня было 2 варианта: просто использовать идею или поделиться соображениями с умными людьми. Я выбрал 2-е. Извините, если что-то не правильно оформил.

lair Aug 2 2016 at 11:14

Я алгоритмист

И что вам мешало изложить свой алгоритм в псевдокоде, как это делают в Стэнфорде?

Если человек увидит в идее смысл

Проблема в том, что сейчас увидеть смысл вашей идеи по вашему описанию весьма сложно. Я вот не осилил.

ptyrss Aug 2 2016 at 13:38

Если честно, мне этот код напомнил один из вариантов сортировки черпаком или бор. Кстати если использовать бор в лоб по основанию d(можно по основанию 2 ,10, 16 и по любому другому) то это будет Nlog(d,MAX_INT)d памяти, поиск будет происходить за log(d,MAX_INT) операций. В пределе при d --> MAX_INT мы получим обычный массив. Мне кажется это будет быстрее чем log^2(N) при N начиная уже с 10 тысяч.

kmu1990 Aug 2 2016 at 09:55

А можно вставлять маркер удаления в самый недавний массив и учитывать его при сляинии с более старыми массивами… и получаем LSM дерево.

ov7a Aug 2 2016 at 09:22

Не развернутый ли связный список спрятан за этим поражающем понятностью кодом?
https://en.wikipedia.org/wiki/Unrolled_linked_list

retYrn0 Aug 2 2016 at 09:47

Нет. Здесь все подмассивы разных размеров(степени двойки) и не наблюдается закономерность: все элементы следующего подмассива меньше/больше предыдущих — это если грубо взаимо-независимые массивы. Хотя спасибо за комментарий… родилась идея использовать эти особенности развёрнутых связанных списков для ускорения поиска вплоть до логарифмической сложности.

bfDeveloper Aug 2 2016 at 09:56

Идея интересная, но подача… В злоупотребляете ~~всякими глупыми вставками~~ зачёркнутыми фразами. Очень утомляет и отвлекает.

ov7a Aug 2 2016 at 10:08

Отрефакторите, пожалуйста, код. Сейчас в таком он очень трудно читается. Можно хотя бы нормальные имена переменных сделать?

retYrn0 Aug 2 2016 at 10:26

Там всего 4 типа имен: key, val,i,nxt.
Key(0,1,2,3) — подмассивы ключей,
Val(0,1,2,3) — подмассивы значений,
i(0,1,2) — счётчики позиций слияния для отложенного пошагового слияния,
nxt — ссылка на следующий уровень…
Простите, подскажите какие имена поменять, ибо мне казалось имена соответствуют…

ov7a Aug 2 2016 at 10:30

Почему читатель должен помнить, что 0 — это результат, 1 и 2 — это части, а 3 — это временное хранилище?

retYrn0 Aug 2 2016 at 10:46

Вы правы, не должен. Подскажите на что — мне не сложно заменить.

ov7a Aug 2 2016 at 10:56

Например, key_result, key_left, key_right, key_temp. Вы же создатель кода, вы должны лучше знать, как все должно называться

И кстати, негоже указатели инициализировать нулем, когда есть nullptr или хотя бы NULL.

retYrn0 Aug 2 2016 at 11:29

Отрефакторил.

Norraxx Aug 2 2016 at 22:23

Здравствуйте, прочитал Вашу статью. Попытался прочитать код. Идея интересная. Но я хочу поделиться опытом (на|о)писания кода.

Первое:
Всегда наперед напишите «сказку», которую код должен делать, например алгоритм в пунктах.
1. открою это, 2. запишу туда, 3. итд…
А после у каждого метода, который отвечает за конкретный пункт тоже самое, тем самым дробя логику написанного программного кода.
В последствии не понадобиться всматриваться в код.

Второе:
Сделайте код самоописуемым. Когда бы вы проснулись после пъянки и посмотрели, глянули на строчку 69 и увидели написанное, сразу поняли:
ко второму пивоту, который отвечает за нахождение в том-то массиве причетаем +1, потому-что тото и тото…

Третье:
l=0;r=len; <<< это буквы без смысла и значения. Не используйте переменные короче 3 букв, сейчас они для вас понятны, завтра сами запутаетесь.

Четвёртое:
Делите логику. Не обязательно, что-бы был один большой метод, который делает всё. Дробите его.

retYrn0 Aug 3 2016 at 08:14

Спасибо за лаконичные и справедливые замечание и пожелания, буду стремиться, но эту статью писал в режиме обеда на работе и не было времени более тщательно подойти к написанию. Да и очень хотелось поделиться идеей.

Deosis Aug 3 2016 at 05:50

О качестве кода говорит тот факт, что после рефакторинга в счетчики пишется NULL.

При этом идея выглядит так, будто вы создали Франкенштейна из массивов, деревьев и сортировки слиянием.
Попробуйте описать результат после вставки 3 элементов в пустое хранилище в виде диаграмм. Это более наглядно.

Так же около 10 указателей в узле непохоже на уменьшение оверхеда по памяти.

retYrn0 Aug 3 2016 at 08:12

NULL — это да. Ох уж эта автозамена)
По-поводу Франкенштейна — в точку. В статье написано, что пока писал код, то иногда действовал чуть ли не наугад, ибо идея плавала на поверхности и я сам не о конца понимал как это работает — многовато разного нужно было держать в памяти — это слегка сложнее реализации уже готовых алгоритмов, но вообще согласен. В следующей статье, когда буду описывать оптимизацию бинарного поиска, постараюсь учесть все пожелания комментаторов.
А на счёт 10 указателей — это Вы зря. Они не значимы в пересчёте оверхеада, потому что каждый новый массив-уровень будет содержать в 2 раза больше элементов, чем предыдущий, а количество указателей при этом не изменится.

augur Aug 2 2016 at 11:50

Оригинальный стиль изложения, интересная идея, но где самое вкусное — реальные замеры производительности в сравнении с классическими структурами?

retYrn0 Aug 3 2016 at 08:21

Эта структура пока не закончена — это одна из идей. Сейчас я собираюсь реализовать несколько оптимизации, в т.ч. бинарного поиска и ещё парочку, о чём, по-возможности, напишу здесь статьи и в конце планирую написать статью, объединяющую все идеи в конечную структуру. Все сравнения-замеры обязательно будут проведены когда идея примет более полный вид. Я не жалею, что написал эту сыроватую статью, ибо умные люди здесь навели меня на целых 3 идеи по дальнейшему развитию структуры да и ценные комментарии по-поводу оформления статьи мне будут крайне полезны.

Videoman Aug 3 2016 at 08:24

Интересная идея. А не похожа ли ваша структура на B-tree где порядок вершин не задан жестко а меняется как 1, 2, 4, 8 и т.д., в зависимости от уровня?
Т.е. листья имеют по одному элементу и при росте дерева и появления нового уровня, корень становится в два раза больше.

Videoman Aug 3 2016 at 08:38

Кстати, может я и не прав, но у меня получается оценка сложности O(N^2) вот из каких соображений:
допустим у нас есть пустая структура и мы начинаем добавлять элементы:
1 — элемент O(1). Здесь мы не сортируем и экономим по сложности.
2 — элемент O(1). Здесь мы создаем двумерный массив и делаем слияние. Это сортировка со сложностью O(N).
Теперь, допустим, мы добавляем еще два элемента. Получаем два двумерных массива, каждый за O(N). Но теперь мы должны из них создать массив из четырех элементов что будет тоже O(N). Получается O(N * O(N)) = O(N^2).

retYrn0 Aug 4 2016 at 14:37

Не-не-не. Именно поэтому слияние не просто отложенное, но ещё и пошаговое. Один шаг выполняет добавление в создаваемый массив всего ОДНОГО элемента из 2-х массивов, в зависимости от того, какой очередной элемент меньше — так нагрузка распределяется.

Videoman Aug 4 2016 at 14:49

Ну тогда O(N) будет, или я опять не понял? Вы не могли бы, еще раз по шагам расписать как происходит добавление в пустую структуру. По коду просто очень тяжело понять.

retYrn0 Aug 4 2016 at 16:04

O(N) было бы, если бы мы при каждой вставке производили слияние, но мы хитрее. Мы дожидаемся пока оба сливаемых массива полностью заполнены(предполагая, что они изменяться не будут) и только после этого начинаем слияние — создаём массив в 2 раза больших размеров и начинаем процесс слияния пошагово — по одному элементу за раз из одного из под массивов. А каждый шаг запускается при вставке нового элемента.
Для первых вставок:
1. Вставляем элемент первый одноэлементный массив.
2. Вставляем элемент во второй одноэлементный массив и создаём двухэлементный массив для слияния и делаем первый шаг слияния(в массив слияния попадает один из элементов — меньший).
3,4. — То же, что 1,2, но только мы дополнительно запускаем очередной шаг слияния.
За одну вставку в результирующие массивы каждого уровня будет вставляться по одному элементу.

Videoman Aug 4 2016 at 16:21

:) А можно пример для последовательности 8.7.6.5.4.3.2.1?

retYrn0 Aug 4 2016 at 16:31

Окей, сейчас даже графически нарисую «блуждание» по структуре)

retYrn0 Aug 4 2016 at 18:06

Слева нулевой уровень, справа первый.
Каждая строка отображает значения после вставки.

lair Aug 4 2016 at 21:41

Вставляем элемент первый одноэлементный массив.
1 операция.

Вставляем элемент во второй одноэлементный массив и создаём двухэлементный массив для слияния и делаем первый шаг слияния(в массив слияния попадает один из элементов — меньший).

+2 операции.

3,4. — То же, что 1,2, но только мы дополнительно запускаем очередной шаг слияния.

На третьем шаге: +3 операции (сначала слияние внутри стартового уровня, потом создание следующего уровня, потом создание нового элемента в стартовом уровне).

На четвертом шаге: +2 операции (как на втором).

На пятом шаге: +6 операций (слияние, пересылка на следующий уровень, слияние там, еще одно слияние там, простановка значения на этом уровне, еще одно слияние на следующем уровне).

Итого я насчитал 14 операций на пять шагов. И из динамики выглядит так, что это будет расти нифига не линейно, и даже не логарифмически (потому что по мере продвижения вперед количество слияний на одну операцию будет вырастать вместе с "глубиной" конструкции).

А еще хочу заметить, что у вас двухкратный расход памяти, потому что пока данные не перенесены в следующий уровень, они хранятся одновременно в result, left и right.

PS Так напомните, какая у вас сложность поиска?

retYrn0 Aug 4 2016 at 22:11

Насчёт двойного расхода памяти я в курсе. В дереве тройное-четверное для аналогичных типов данных.
Не слияние, а шаг слияния — это копирование одного значения. В деревьях для балансировки при вставке происходят «повороты», не считали сколько это?
Линейно — это же вроде хуже, чем логарифмически… в любом случае каждый следующий уровень в 2 раза больше предыдущего, а значит с каждым новым уровнем для создания следующего нужно будет внести столько же элементов, сколько уже внесено. Это не логарифм?

lair Aug 4 2016 at 22:14

Насчёт двойного расхода памяти я в курсе. В дереве тройное-четверное для аналогичных типов данных.

Откуда?

Линейно — это же вроде хуже, чем логарифмически…

Я имел в виду n log n, типичное для операций сортировки.

в любом случае каждый следующий уровень в 2 раза больше предыдущего, а значит с каждым новым уровнем для создания следующего нужно будет внести столько же элементов, сколько уже внесено. Это не логарифм?

Это так не выглядит.

retYrn0 Aug 4 2016 at 22:25

Откуда… мы храним ключ — 4 байт + значение — 4 байта + 2 ссылки на лево-право + балансирующий параметр, иногда родителя хранят. Здесь только ключ и значение, хотя, конечно, в 2 местах.
Слияние происходит по одному элементу на каждом уровне за одну вставку и происходит оно только после того, как оба подмассива полностью заполнены. Результирующий массив отправляется на уровень ниже и просто висит там, пока в этот уровень не придёт ещё один аналогичный по размеру массив. На 1 уровне 2 одноэлементных массива. На втором — 2 двухэлементных. На третьем 2 четырёх элементных. С каждым уровнем размерность массива удваивается относительно предыдущего. Если бы размерность не менялас, то для чего бы я вводил свойство класса len?

lair Aug 4 2016 at 22:29

Здесь только ключ и значение, хотя, конечно, в 2 местах.

И вот тут возникает вопрос, что больше — ссылки, или ключи/значения. Впрочем ладно, будем считать, что убедили.

Слияние происходит по одному элементу на каждом уровне за одну вставку
Нет. Когда у вас начинает заполняться следующий уровень, слияние на нем вызывается больше одного раза за вставку на верхний уровень, и дальше это распространяется на каждый следующий уровень тоже.

retYrn0 Aug 4 2016 at 22:39

Так скорее всего может показаться из-за того, что для наглядности я вызываю upd с каждой вставкой. Но первое условие проверяет готов ли массив к слиянию — если под result память не выделена, то пытаемся спустится на уровень ниже, но здесь ничего не произойдёт.

lair Aug 4 2016 at 22:42

если под result память не выделена, то пытаемся спустится на уровень ниже, но здесь ничего не произойдёт.

На уровень ниже вы спускаетесь всегда, когда он есть (а это дважды за вставку на этом уровне), и если там память под result выделена, то там будет два слияния безотносительно состояния текущего уровня, и в любом случае будет переход на уровень еще ниже (конечно, если он есть), далее аналогично.

retYrn0 Aug 4 2016 at 23:00

Да, при вставке нового значение происходит по шагу слияния на каждом уровне. — Что и при вставке в дерево, когда нужно перебалансировать его и поэтому мы делаем повороты «всплывая» или наоборот. В этом случае наоборот.

lair Aug 4 2016 at 23:09

Корректировка деревьев происходит не на каждом шаге, и стоимость каждой корректировки ограничена O(log n).

retYrn0 Aug 4 2016 at 23:34

А здесь на каждом шаге, но тоже логарифм, ибо нужно сделать по одному шагу слияния на каждый уровень, а количество уровней, как и в дереве, описывается логарифмом.

lair Aug 4 2016 at 23:34

А здесь на каждом шаге, но тоже логарифм, ибо нужно сделать по одному шагу слияния на каждый уровень,

А по одному ли?

retYrn0 Aug 4 2016 at 23:47

«На всякий случай» я делаю по 2(не помню, сейчас вот удалил нижний upd() — тоже работает), но с точки зрения алгоритма достаточно одного.
По примеру — внесли 16 элементов (2 по 8) и полностью досортированный результирующий массив (1 по 16) нам понадобится когда насобираем ещё 16 элементов. На самом деле нам не хватает одного шага слияния, ведь когда придёт 16-й элемент, оба 8-ми элементных массива уже должны быть пусты, а 16-ти элементный должен быть на сл. уровне, но на 16 шаге перенос указателя на сл.уровень ещё не произойдёт, поэтому 1 дополнительное слияние мы делаем ещё и в момент создания временного массива.

lair Aug 4 2016 at 23:49

«На всякий случай» я делаю по 2(не помню, сейчас вот удалил нижний upd() — тоже работает), но с точки зрения алгоритма достаточно одного.

Вот именно поэтому и надо писать в псевдокоде и объяснять каждый шаг. Нет никакого "всякого случая", когда вы оптимизируете под производительность.

retYrn0 Aug 5 2016 at 00:07

Так и поступлю, если решу ещё две структуры описать. Хотя сложно утверждать. Я понимаю, что в основном критика уместна, но когда ты бесплатно описываешь то, над чем ломал голову кучу времени, а тебя не поняли, «переменные не так назвал», замеры делай — не весело, лень берёт верх)

retYrn0 Aug 5 2016 at 00:12

Точно, про дизлайк ещё забыл — тоже желание отбивает что-то описывать)

UFO landed and left these words here

retYrn0 Aug 5 2016 at 08:12

Это как с телевизором: не хочешь смотреть рекламу — выключи телевизор. Но давайте на секунду предположим, что алгоритм хорош. И после такого шквала наездов я что-то кому-то должен доказывать? Ну не знаю. Мне кажется это не целесообразные потуги. А цели своей я добился некоторые люди заинтересовались идеей.

ov7a Aug 5 2016 at 08:06

Для бесплатного изложения потока мыслей есть личные бложики, контактик и т.п. Хабр все-таки позиционируется как технический ресурс, где присутствуют специалисты. И вы бесплатно получаете фидбэк и обмен идеями, обсуждение вашей идеи, поиск косяков в ней и т.п. Если вас не поняли из-за кошмарного кода и невнятных объяснений, вы имеете полное право обидеться и уйти, но вы подумайте об этом с другой стороны: чем больше человек поймет вашу идею, тем больше шансов получить на нее отклик и больше шансов ее улучшить. Если вы ее реально используете в коде, то вы забесплатно получите улушение своего кода.

lair Aug 4 2016 at 22:50

Откуда… мы храним ключ — 4 байт + значение — 4 байта + 2 ссылки на лево-право + балансирующий параметр, иногда родителя хранят. Здесь только ключ и значение, хотя, конечно, в 2 местах.

Зато есть занятное встречное наблюдение: для вашего решения нужна память последовательными кусками. Для дерева — нет.

retYrn0 Aug 4 2016 at 23:06

Идеально для файловых структур, когда в пределах одного кластера может находится куча актуальных данных)

retYrn0 Aug 4 2016 at 23:08

Для файлов в деревьях специально группирую сразу несколько значений внутри ноды, чтобы за одно чтение можно было больше пользы получить. B-tree вроде.

retYrn0 Aug 4 2016 at 22:49

Почему не выглядит если вот же — результирующий массив в 2 раза больше обоих исходных. После заполнения мы его пробрасываем в сл. уровень. Там происходит то же самое, только len там удвоенная от первоначального…
keyResult=new unsigned int[len*2];
valResult=new unsigned int[len*2];

lair Aug 4 2016 at 22:52

Почему не выглядит если вот же — результирующий массив в 2 раза больше обоих исходных. После заполнения

Потому что его заполнение тоже стоит вам операций, количество которых накапливается с глубиной.

retYrn0 Aug 4 2016 at 23:29

массив 1: 2 4 6 8
массив 2: 1 3 5 7
Один шаг слияния — это когда мы берём одно значение из массива 1 или 2 в зависимости от того какой текущий элемент сравнения меньше. За один шаг в результирующий массив дописывается только одно значение из уж сформированных отсортированных массивов. Не слияние в принципе, а только один шаг — одно значение.

Пример.
Пусть мы внесли 16 значений. Это будет означать, что первые 3 уровня пусты, в 4-м содержится 2 полностью заполненных и отсортированных 8-ми элементных массива. Чтобы слить их в 16-ти элементный массив, необходимо 16 шагов слияния. А сколько нужно вписать новых элементов, чтобы получить новый уровень — тоже 16. В этом и состоит отложеность слияния.

lair Aug 4 2016 at 23:41

Пусть мы внесли 16 значений. Это будет означать, что первые 3 уровня пусты,

А вот и нет. На первом уровне — все массивы заполнены (полезной информации — два элемента), на всех последующих — заполнены temp (2, 4 и 8 элементов соответственно). Суммарно 16, что логично. И к этому моменту мы уже сделали 35 шагов слияния (85 операций всего).

retYrn0 Aug 4 2016 at 23:54

То есть «нет»?) По логике моего алгоритма — да…

lair Aug 4 2016 at 23:59

А по факту выполнения — нет. Я просто встал в дебаггере и показал вам, что получается. Когда вставляется 16 элемент, в первом уровне заполнен temp, мы перемещаем его в right, новый элемент идет в left. Теперь мы аллоцируем result и вызываем upd — который передвинет один элемент (left или right) в result. Поскольку result не полон, его передача на следующий уровень не случится.

(Лишний аргумент в пользу строгого псевдокода)

retYrn0 Aug 5 2016 at 00:10

странно. Надо будет глянуть что там происходит…

lair Aug 5 2016 at 00:11

Просто если вы не понимаете даже состояние своей структуры данных на n-ом шаге, как вы делаете утверждения о ее алгоритмической сложности?

retYrn0 Aug 5 2016 at 01:57

А для определения сложности нужно понимать состояние структуры на n-ом шаге?..
Достаточно критики, надоело уже. Всё до безумия просто — не используйте эту структуру, если не нравится. А я вижу в ней потенциал и буду развивать дальше.

lair Aug 5 2016 at 06:42

Нужно, конечно. Иначе исходя из чего вы оцениваете потребление ресурсов?

Ну и да, я уже давно не пишу/использую кастомные коллекции данных, если нет сильного обоснования: встроенных хватает практически на любой случай.

retYrn0 Aug 5 2016 at 08:00

На каждом уровне по одному массиву слияния. Шаг слияния — одна операция(сравнение и копирование). Для полноценной работы алгоритма достаточно делать по одному шагу слияния на вставку для каждого уровня. А количество уровней логарифмическое, так как каждый следующий уровень в 2 раза больше предыдущего. Исходя из этого — сложность должна быть логарифмической.

lair Aug 5 2016 at 08:37

Не сходится. На 16 внесенных значений (четыре уровня) сделано 35 слияний, это больше чем четыре слияния на вставку. Это ваш реальный код.

retYrn0 Aug 4 2016 at 23:31

При каждом добавлении элемента мы плавно пошагово готовим все уровни по одному значению на уровень.

lair Aug 4 2016 at 22:25

Я тут малость переписал вашу программу на C#, потому что C++ мне гонять негде, и добавил подсчет операций при set. Вот, что получилось (слева — количество set, справа — количество операций):

3, 8
10003, 153844
20003, 327665
30003, 513505
40003, 695310
50003, 898366
60003, 1086974
70003, 1260379
80003, 1470603
90003, 1693627
100003, 1896699

WA считает, что это полиномиальная зависимость.

lair Aug 4 2016 at 22:36

https://github.com/srogovtsev/Habrahabr/tree/master/SMAS

retYrn0 Aug 4 2016 at 22:13

И опять же, здесь двойной расход памяти — худший случай. А лучший случай — +1 временное пустое. А в дереве оверхед на ссылки-балансирующие данные гарантированы.

lair Aug 4 2016 at 22:14

И опять же, здесь двойной расход памяти — худший случай.

Не худший, а возникающий с заданной периодичностью.

retYrn0 Aug 4 2016 at 22:28

Заданная периодичность звучит будто через каждые N вставок. Но тут опять же логарифмическая зависимость. А так да, появление этого случая предсказуемо.

lair Aug 4 2016 at 22:31

Заданная периодичность звучит будто через каждые N вставок.

Так и есть. После каждых двух вставок на первом уровне будут аллоцированы все массивы.

retYrn0 Aug 4 2016 at 22:46

Аллоцированы все массивы? Каждую вторую вставку? Аллоцированы будут все 2 массива следующего уровня каждую вторую вставку. А следующего — каждую его вторую вставку, но так как в него вставка происходит через раз, то это каждая четвёртая вставка, 3 уровень — восьмая и остальные степени двойки.

lair Aug 4 2016 at 22:49

Аллоцированы все массивы? Каждую вторую вставку?

Да, на первом уровне.

А следующего — каждую его вторую вставку, но так как в него вставка происходит через раз, то это каждая четвёртая вставка

Но и массивы там в два раза больше. Поэтому потребление памяти будет описываться суммой периодических функций, каждая "в два раза больше" (как по амплитуде, так и по периоду) предыдущей.

retYrn0 Aug 4 2016 at 22:55

Я к тому, что когда у нас заполнены пусть 5 уровней, пара лишних одноэлементных массива не слишком тянут на худший перерасход памяти. В принципе вы правы, просто я исхожу относительно текущего N.

lair Aug 4 2016 at 22:56

Это не отменяет того факта, что в некий (полностью предсказуемый) момент времени у вас на всех уровнях будут аллоцированы все массивы.

retYrn0 Aug 4 2016 at 23:03

Я к тому, что с рост количества вставок для «предсказуемого момента» зависит от количества уровней и далеко не линейно.

lair Aug 5 2016 at 00:25

Так напомните, какая у вас сложность поиска?

Так вот, сложность поиска — это сумма сложностей поиска на каждом уровне. Те, в свою очередь, логарифмичны, но проблема в том, что сумма логарифмов — это не логарифм суммы, а логарифм произведения.

lair Aug 5 2016 at 00:43

… что, вкупе с геометрической прогрессией размеров, дает нам чуть ли не O(sqrt(n)) время поиска в худшем случае (что стабильно больше логарифма). Выглядит дико, конечно, я практически уверен, что налажал в преобразованиях.

retYrn0 Aug 4 2016 at 16:07

То есть слияние первых двух значений полностью завершиться только при вставке следующих двух значений. И что ещё важно — вставка всегда происходит в «голову» структуры, поэтому поиск последних добавленных будет всегда быстрее «старых» значений.

retYrn0 Aug 3 2016 at 08:34

Я вообще считаю, что люди не умеют придумывать ничего нового, только брать немного там, немного там и объединять во что-то, чего ещё не было.
Согласен, общие черты есть. Хотя отталкивался не от B-деревьев, а от обычных отсортированных массивов. В любых бинарных деревьях может быть 2 указателей на такую-же структуру, а здесь только один.
Хотя это тоже натолкнуло на мысль, спасибо) Предположим мы реализуем B-tree с порядками-степенями двойки, зависящими от уровня — это может быть даже лучше. Но мне не попадались статьи, где описывалось подобное использование B-tree, или они есть?

Videoman Aug 3 2016 at 08:41

Нет, я, во всяком случае, не видел. Но ваше желание избавиться от оверхеда по пямяти, за счет усложнения вычислений, и похожая результирующая структура натолкнула на такую мысль.

retYrn0 Aug 3 2016 at 08:46

Иногда к одной и той же идее можно прийти разными путями)

lair Aug 4 2016 at 23:55

Впрочем, я понял, что меня тут всю дорогу смущало. Ваш код не может быть альтернативой бинарному дереву поиска, потому что на нем нельзя выбрать диапазон; следовательно, сравнивать его надо с key-value структурами — читай, хэш-таблицами с их O(1) на операцию (и существенно меньшей памятью).

(BTW, в случае, когда на уровне заполнены result, left и right, а элемент не входит в этот уровень, стоимость прохода уровня при get увеличивается вдвое)

lair Aug 5 2016 at 00:47

BTW, в случае, когда на уровне заполнены result, left и right, а элемент не входит в этот уровень, стоимость прохода уровня при get увеличивается вдвое

Неправ, нет такого кейса.

ov7a Aug 5 2016 at 08:24

del