AloneCoder Jul 14 2015 at 12:09

«Под капотом» индексов Postgres

7 min

51K

VK corporate blogPostgreSQL*System Analysis and Design*SQL*Algorithms*

Translation

+40

Comments 21

NevRA Jul 14 2015 at 12:46

Может быть вы знаете, как у Postgres обстоят дела с поиском вхождения строки, т.е. если бы вы в вашем примере искали «tain Ne»?

galaxy Jul 14 2015 at 14:06

Не слишком круто, но кое-что есть:
www.depesz.com/2011/02/19/waiting-for-9-1-faster-likeilike
Для словарного и префиксного поиска есть лучшие решения:
stackoverflow.com/questions/17633344/is-there-a-way-to-index-in-postgres-for-fast-substring-searches

Впрочем, задача ускорения поиска по подстроке сама по себе не имеет, видимо, эффективного решения.

NevRA Jul 14 2015 at 14:47

Впрочем, задача ускорения поиска по подстроке сама по себе не имеет, видимо, эффективного решения.

Я пока к такому же выводу пришел.

zvorygin Jul 14 2015 at 16:12

Есть префиксные деревья, которые могут помочь решить эту задачу.

neolink Jul 14 2015 at 22:50

а ещё есть gist_trgm_ops он же может матчинг с регулярками ускорять

xiWera Jul 15 2015 at 01:37

про это первая ссылка galaxy. В текущей реализации у них ограничени на длину строки.

yaak Jul 14 2015 at 14:33

Отличная статья. А можете пояснить, каким образом в узле может закончиться место? Есть какие-то ограничения постгреса на размер узла?

zvorygin Jul 14 2015 at 16:13

Обычно размер узла подбирается так, чтобы он был равен одной странице ввода/вывода(или нескольким 2/4/8).

calx Jul 14 2015 at 14:41

Для того, чтобы выяснить, как работает B-Tree индекс, вовсе не обязательно погружаться по локоть в исходные коды. Ожидал какого-то более существенного срыва покровов.

-2

zvorygin Jul 14 2015 at 16:17

Следует уточнить, что для индексов используются не то что понимается под B-tree, а B* или B+ -tree. В обычных B-tree информация может храниться в узлах дерева, а в B+ — только в листьях, что дает некоторый простор для оптимизаций.

TimsTims Jul 14 2015 at 16:56

-Но затем по необъяснимой причине Postgres продолжил сканировать всю базу, сравнивая каждое значение с искомым, хотя оно уже было найдено!

ожидал услышать ответ на этот вопрос, ведь вы покопались в исходниках… а вы покопались в исходниках и открыли америку

Mingun Jul 14 2015 at 17:36

Ответ мне кажется очевидным, там же стоит сортировка по полю id, а это значит, что (поскольку значения name не уникальны, ведь никто не сказал обратного) даже когда мы нашли запись, удовлетворяющую условию, то это вовсе не значит, что мы нашли запись с минимальным id (поскольку нам также никто не сказал, что мы просматриваем id в нужном порядке — по возрастанию).

fingoldo Jul 18 2015 at 13:31

Твою дивизию ) А я уж думал, Tom Lane где-то exit for пропустил ))

galaxy Jul 14 2015 at 18:25

На всякий случай замечу, что это перевод :)

knekrasov Jul 15 2015 at 00:07

Потому, что запрос выглядит как «дай мне всех пользователей с именем таким-то». Нигде не говорится, что такое имя единственно. Limit применяется уже к результату выборки и на время работы запроса не влияет.

fingoldo Jul 18 2015 at 13:32

Не скажите. Если бы не было order by, было бы логично после нахождения первых N совпадений поиск прекращать…

velvetcat Jul 15 2015 at 11:00

Это все, конечно, хорошо (почти хорошо, см. выше коммент про сортировку по id), но такими темпами придется очень долго исследовать то, что у Постгресса под капотом…

andreylartsev Jul 15 2015 at 18:24

>> Индексы — один из самых мощных инструментов в реляционных базах данных.

Строго говоря индексы к реляционной модели данных никакого отношения не имеют.
Индексы это способ ускорить обработку данных.

-1

fingoldo Jul 18 2015 at 13:33

Ха-ха, +100 )

adseipsum Jul 15 2015 at 20:47

Прекрасное издание Жюля Верна с отличными иллюстрациями, простите за офтоп.

dbarashev Jul 21 2015 at 17:08

Я правильно понял, что «поиск последовательностей» это перевед сочетания «sequential scan»? Если да, то по-русски это называется «последовательный перебор» или «последовательный просмотр»