Flux Jan 14 2011 at 13:49

Trie, или нагруженное дерево

4 min

108K

Algorithms *

From sandbox

+67

Comments 29

UFO landed and left these words here

aymeshkov Jan 14 2011 at 17:06

Хорошая статья, спасибо!

Все-таки слабым местом trie является память — если никак не сжимать, то оно может разрастись до впечатляющих размеров.

aymeshkov Jan 14 2011 at 17:07

Забыл спросить. Откуда термин «нагруженное дерево»? Раньше просто встречал только «префиксное дерево».

Flux Jan 14 2011 at 17:39

Вообще у этой структуры великое множество названий — trie, нагруженное дерево, префиксное дерево, бор, луч, и наверняка еще парочка о которых я не знаю. Помню у Ахо и Ульмана пояснялось происхождение большинства названий.

В первой прочитанной мною статье эта структура называлась нагруженным деревом, с тех пор и употребляю это название.

burdakovd Jan 15 2011 at 02:53

Добавьте хоть в теги альтернативные названия.
А ещё лучше и в начале статьи список названий.
А то до самого конца преследовала мысль «Чем это отличается от бора?»

PASSTor Jan 15 2011 at 12:57

По сравнение с хеш таблицами, как и написано в статье, будет занимать меньше места, если у нескольких ключей префиксы одинаковы.

Да и специфика налицо: поддеревья по префиксу далеко не любая структура выдаст быстро. Так что использование памяти компенсируется.

kets Jan 14 2011 at 17:09

Спасибо большое за статью, а теги мы и читаем (ну иногда точно читаем :))))

andreycha Jan 14 2011 at 17:23

На Хабре появился последователь Skiminok'а? :) Поддерживаю.

Flux Jan 14 2011 at 17:47

Спасибо, спасибо.

Самому очень нравятся его статьи про DSU и декартовы деревья.

Skiminok Jan 14 2011 at 17:58

Спасибо :)
Эта статья, в свою очередь, тоже замечательна.

Стоит упомянуть здесь одну из лучших книг по строковым алгоритмам и структурам данных, связанным с ними:
Дэн Гасфилд, «Строки, деревья и последовательности в алгоритмах. Информатика и вычислительная биология»

Biga Jan 14 2011 at 20:05

Префиксные деревья — это вычислительная ботаника? =)

Skiminok Jan 14 2011 at 20:10

Огромное количество эффективных алгоритмов на строках и структур данных для быстрых операций с ними (в том числе бор) были разработаны, когда биологам потребовалось анализировать цепочки ДНК колоссальной длины.

AFC Jan 14 2011 at 17:23

Стоило бы раздел «Зачем все это нужно» поставит сразу после «Что это ?» и раскрыть пошире область применения. Почему то не хочется читать как удалять/добавлять/делать что-то, если не понятно зачем вообще все это надо.

Razoomnick Jan 14 2011 at 17:38

Иненно так я поисковые подсказки реализовывал на одном из проектов. Там, правда, добавил такую характеристику узлам, как частота, чтобы показывать наиболее популярные запросы первыми.

andrewsh Jan 14 2011 at 17:44

а вот, кстати, неплохая реализация trie на C99: hg.atheme.org/libmowgli/libmowgli/file/tip/src/libmowgli/mowgli_patricia.c

Laytlas Jan 14 2011 at 20:06

*Сглатываю слюну*, мне казалось, что реализация не доходит и до 100 строк, а тут целоая 1000.

Так как комменты могу писать раз в 5 минут, объясните пожалуйста, как алгоритм поиска работатет за O(|Key|)? Разве мы у каждого родителя не должны проверить всех его потомков? В худшем случае это работает O(число потомков), или есть более быстрый способ поиска «нужного» потомка? Или O(|Key|) подразумевает проход по всем потомкам и данного родителя?

Laytlas Jan 14 2011 at 20:15

Ложная тревога. Мощность алфавита — константа, извиняюсь.

Skiminok Jan 14 2011 at 20:17

Там по ссылке гораздо усложнённый вариант.
Я когда бор пишу, он у меня от силы несколько десятков строк занимает.

andrewsh Jan 14 2011 at 20:50

Извините, не я автор, я сам этот код увидел три дня назад, когда отлаживал Audacious :) Тогда же узнал, что это такое и как работает, хотя код до конца покамест не понимаю.

Laytlas Jan 14 2011 at 20:00

Я вот когда был в ЛКШ, попал в параллеь В', и самое зубодробительное что там было — скорее всего геометрия. На пол параллели выше (из параллели В) люди ходили и разбирались с этими деревьями, искали ключи, я стоял как дурак и думал, что за… Какие ключи??!!!
Вывод: После небольшого экскурса автора в деревья я больше не буду стоять деревом при их виде.
И еще вопросик, где можно найти материал почитать про различные алгоритмы и структуры, чтобы было написано понятным языком, примерно как у вас.

Skiminok Jan 14 2011 at 20:16

Кормен же.
Седжвик ещё.
E-maxx, разумеется.
Тысячи их.

Flux Jan 14 2011 at 20:34

Категорически поддерживаю.
Кормен — наше все.

voidlizard Jan 16 2011 at 06:44

Крис Окасаки еще.

Megadino Jan 15 2011 at 23:02

Иллюстрации красивые. В чем вы их рисовали?

Flux Jan 16 2011 at 10:19

В Microsoft Visio 2010.

Blackened Jan 17 2011 at 13:04

После этого можно подняться от «отключенного» узла к корню, попутно удаляя все узлы которые являются листьями, однако экономия памяти в данном случае не существенна, а для эффективного определения того, является ли узел листом потребуется вводить дополнительную характеристику узла.

Думается, можно не вводить дополнительную характеристику, а просто удалять при подъёме пустые узлы до первого непустого.

Flux Jan 17 2011 at 13:43

Можно, однако я написал

для эффективного определения того, является ли узел листом

Если не хранить в узле количество его потомков, то для определения того является ли узел листом нужно будет проверить существование каждого из n его возможных потомков, где n — мощность алфавита.

Blackened Jan 17 2011 at 14:37

Да, согласен.

MikaMikuMik Feb 1 2012 at 15:08

Спасибо, почитал перед ГОСАМИ))