mnv9 сен 2020 в 11:09

Текстовый индекс по котировкам в памяти на Go

5 мин

3.9K

Высоконагруженные системы * Поисковые технологии * Программирование * Алгоритмы * Go *

Перевод

Комментарии 16

negasus 9 сен 2020 в 11:13

Я правильно понимаю, что мы говорим про префиксное дерево?

mnv 9 сен 2020 в 11:16

Совершенно верно

negasus 9 сен 2020 в 13:20

Тогда странно, что в во всей статье ни разу это словосочетание не упоминается)

mnv 9 сен 2020 в 13:41

Спасибо, добавил

AndreySu 9 сен 2020 в 13:14

Здорово видеть как раньше человек, видимо, писал на PHP и знал только:

WHERE name LIKE 'начало%'

и обретя GoLang понял что можно теперь пользовать оперативной памятью и создавать:

простое дерево

mnv 9 сен 2020 в 13:32

Вступайте в ряды программистов, как бонус научитесь отличать php от sql

AndreySu 10 сен 2020 в 05:52

Спасибо, только речь тут не про SQL а про работу с оперативной памятью в PHP и в GoLang.

PashaPodolsky 9 сен 2020 в 17:31

Для погромистов на ~~настоящих языках~~ Rust оставлю здесь crate https://docs.rs/fst/0.4.4/fst/
Эта реализация трансдюсеров — лучшая из всех что я встречал.

У меня на входе было 100 миллионов ключей со средней длиной 25 байт. У групп ключей часто встречался общий префикс от 7 байт и до двух третей всей длины строки. Ещё нужно было 8 байт для значения, в качестве value были числа от 1 до N. Итого 2.5Гб ключей + 800 Мб значений.

После засовывания всего добра в fst, выхлоп занял около 240 мегабайт в памяти, при этом вся структура сериализуется в файл и может mmapиться прямо из этого файла, не требуя никаких дополнительных приседаний.
LZMA на этих же ключах, соединенных через \n дал даже чуть больший размер и это без возможности RA и префиксного поиска.

Если же упороться дальше и сам выхлоп fst прогнать через LZMA, то байтов получится в два раза меньше — 116 Мб.

Из минусов — иммутабельность и необходимость класть ключи в отсортированном порядке, поэтому для миллиардов ключей придется вспомнить решения любимых задач на собеседованиях про merge sort на файлах.
Но для задачи из ОП-поста вроде можно обойтись и так.

mnv 9 сен 2020 в 19:33

С вашими данными явно стоило память экономить. В моей задаче случай проще и я выбрал скорость в обмен на память. А так да, могу убрать SearchItem.Key и получить сжатый индекс.

rekby 10 сен 2020 в 22:50

Если задачи экономии памяти особо не стоит, а нужна скорость — пробовали сравнивать свою реализацию с map[string] []SearchItem, где в качестве ключей использовать все встречающиеся префиксы?

mnv 10 сен 2020 в 23:32

Мысль хорошая, и реализация была бы совсем простой. По началу хотелось в таком духе и сделать по быстрому, но в итоге не пробовал, так как понадобилось бы сильно больше памяти для ключей, и для поиска по началу строки пришлось бы еще класть много дублей в значения. С увеличением данных память росла бы нелинейно. Но так поиск работал бы еще быстрее.

wataru 13 сен 2020 в 20:43

Стоит написать, что эта структура данных называется trie или "бор" в русской литературе.

negasus 14 сен 2020 в 08:30

О чем и было сказано в первом же комментарии)

wataru 14 сен 2020 в 08:50

Да, но там не приведены остальные распространненые названия. Некоторые, как я, эту структуру "префиксным дервевом" никогда не называли. Отдельный комментарий я оставил, чтобы автор его точно прочитал.

mnv 14 сен 2020 в 09:35

Спасибо, добавил все варианты названий, которые только нашел)

wataru 14 сен 2020 в 09:42

Мне кажется, вы немного переборщили. Суффиксное дерево — это немного другое (Это trie из суффиксов одной данной строки).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий