ZeroProductivity Feb 13 2025 at 09:15

Хеш-индексы в PostgreSQL: быстрый поиск или скрытые проблемы?

Easy

3 min

4.1K

PostgreSQL * Database Administration * Data storage * Search engine optimization *

From sandbox

+15

Comments 9

parus-lead Feb 13 2025 at 09:21

Благодарю за занимательную статью. Сам сталкивался с вопросами оптимизации в Postgre. Протестирую на практике ваше решение)

Ivan22 Feb 13 2025 at 10:30

Этот хэш индекс хоть помогает при хэш-джоине ??

ZeroProductivity Feb 13 2025 at 11:56

Hash Join в PostgreSQL всегда строит свою временную хеш-таблицу, даже если на соединяемом поле есть хеш-индекс.

Проблема хеш-индекса в том, что каждый поиск требует отдельного обращения к индексу на диске(!). Если в orders миллионы строк, то поиск каждого user_id через хеш-индекс будет слишком дорогим.

Hash Join эффективен, потому что он загружает данные в память(!) один раз и использует их для всех сравнений, а не выполняет отдельные обращения к индексу.

Akina Feb 13 2025 at 12:42

Проблема хеш-индекса в том, что каждый поиск требует отдельного обращения к индексу на диске(!)

Hash Join эффективен, потому что он загружает данные в память(!)

Что-то как-то не срослось... так обращается к индексу для каждой записи или сразу читает всё? проблемный или эффективный? вы уж определитесь, что ли...

ZeroProductivity Feb 13 2025 at 13:13

Hash Join и хеш-индексы решают разные задачи:

Хеш-индекс – это структура данных на диске, которая позволяет быстро находить отдельные значения (=).

Hash Join – это алгоритм, который массово сопоставляет строки между двумя таблицами, создавая временный хеш в памяти.

Поскольку Hash Join должен обработать все строки соединяемой таблицы, хеш-индекс ему не помогает – он предназначен только для точечного поиска (WHERE column = value)

Akina Feb 13 2025 at 13:53

Задача JOIN - связать записи по условию. И в подавляющем большинстве случаев это условие - равенство значений полей в двух таблицах. Если по полю обоих таблиц есть Hash index, то прочитать два индекса и выбрать совпадения гораздо проще, чем посчитать хэши, отсортировать их, и затем отбирать совпадения. И чем больше массив данных, тем заметнее выигрыш.

Что же до хэш-индекса, то тут всё зависит от хэшируемых данных. Для компактных данных согласен, с эффективностью будет туговато. Но есть есть надобность поиска по, скажем, длинным строкам, то тут хэш-индекс просто обязан дать определённый профит именно за счёт своей компактности.

В общем, не всё так уж и однозначно имхо.