prodata_ai28 фев в 10:14

Ох уж эти join-ы: 4 способа ускорить ваши запросы в 10 раз

Простой

5 мин

13K

Базы данных * SQL * Высоконагруженные системы * PostgreSQL *

-12

Комментарии 12

VladimirFarshatov 28 фев в 10:37

Странная статья, и явно писанная или причесанная чатом гопоты. Начать с того, что БД без индексов это и не БД вовсе, а сборище таблиц непойми зачем. Пихать данные в джейсон, а потом индексировать его по полям .. до этого мог додуматься только чат-гопоты, прошу прощения за резкость. Нонсенс.

Хотите без джойн на постгрес? Можно применить массивы. Пример:

ОСМ картография, стандартные таблички nodes, ways уж извините, структуру перечислять не буду, она у ОСМ в открытом доступе. И табличка связи way_nodes из трех полей: way_id, node_id и sequence -- порядок узлов линии. Многие ко многим. В случае поиска линий (ways) по нужным узлам имеем 2 джойна: nodes + way_nodes + ways, впрочем как и при обратном поиске нужных узлов по линиям.

Как можно обойтись без джойн? А просто. Добавляем в nodes поле in_ways bigint[] а в ways поле has_nodes bigint[] -- массивы в какие линии входит узел (как ни странно но это от 1 до 4 линий в среднем) и какие узлы содержатся в линии (тут может быть и до 100 и больше, но редко). Всё. В запросе поиска по узлам смотрим нужные узлы и в какие линии они входят, разворачивая массив, равно как и наоборот. Если нужны описания искомого, то имеем 1 джойн по первичному ключу, который "ничего не стоит" практически вместо двух и индексированного поиска.

Массивы в постгрес - это мощный инструмент, но про него в статье ни слова, однако. )

prodata_ai 28 фев в 12:04

Спасибо за развернутый ответ :) Не ставил себе цель описать все варианты оптимизации

Siemargl 28 фев в 15:40

Пихать данные в джейсон, а потом индексировать его по полям .. до этого мог додуматься только чат-гопоты, прошу прощения за резкость. Нонсенс.

Гораздо раньше ИИ. См Oracle xml query

В MSSQL тоже есть.

OlegZH 28 фев в 11:08

Регистры в 1С.

savostin 28 фев в 11:31

А что скажете про замену небольших редко изменяемых справочных таблиц «enum’ами» в Postgres?

Dhwtj 28 фев в 11:39

Если не нужно жёстких гарантий чтобы при сбое ничего не потерялось, а нода только одна и хочется джоины и транзакции, то

возьми in-memory SQLite (крэйт rusqlite). Там будут нормальные джоины и индексы из коробки. Будет очень быстро, часто быстрее чем хешмапы. Для персистентности можно настроить периодический синк в Postgres. Если задача аналитическая (OLAP), бери polars (датафреймы).

Akina 28 фев в 11:58

А где наиболее эффективные методы, основанные на денормализации и предрасчёте? А если говорить о конкретно поставленной в тексте задаче - так ещё и на секционировании/партиционировании?

rozhnev 28 фев в 13:46

Я понимаю что автор пытается продвигать свой телеграм-канал, но я не думаю что читатели Хабра оценят этот опус. Хотите продвигаться - напишите что-либо ценное, интересное и народ пойдет к вам.

RuslanRa 1 мар в 07:58

В кэш можно загонять не только маленькие таблицы. На очень нагруженном проекте мы исключали все join связки. Все таблицы сателлиты были подняты в память. Выгружаем основную таблицу с ид ключами, а далее добавляем ей описания и расширения из таблиц сателлитов.

Обновление:

Каждая таблица завернуть в сервис. Сервис слушает события обновления своих данных и тут как пожелаете перечитать либо сбросить до следующего запроса инициализации.

На одном проекте был поднят в память весь КЛАДР. Тут сервис был со своим API. Пользователи 1м+ спокойно без тормозов его трогали.

ymishta 1 мар в 13:14

В упор не вижу бенефитов от включения total в idx_orders_cover

andrey_svyat 13 мар в 05:13

На моей памяти существенных просадок из-за дожоинов, особенно если не джоинить всё подряд, не было даже на довольно больших объемах. Но да ладно, может это что-то личное, я про не любовь джоинить, но вот JSON, это нечто. Не, я не против json колонок, но уж точно не для справочников...

babken76 25 мар в 05:57

А для чего тогда?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий