PB_Academy3 янв 2025 в 08:00

Оптимизация SQL запросов

Средний

6 мин

81K

SQL * Big Data * Проектирование и рефакторинг *

Туториал

+86

Комментарии 40

abcdsash 3 янв 2025 в 08:18

хорошая статья ) автору респект за возврат к традициям Хабра.

Однако, замечу, что порой ясность кода более важна для его поддержки, чем скорость выполнения. Не всегда, но тем не менее.

PB_Academy 3 янв 2025 в 09:48

Спасибо огромное, будем стараться

OzonMan 3 янв 2025 в 10:15

Статья полезная. Молодец, что описал exists. Многие о нем не знают

ialexander 3 янв 2025 в 10:50

В ваших примерах не всегда очевидна польза той или иной оптимизации.

К примеру, вы пишите, что

Оператор EXISTS будет эффективнее, чем JOIN, потому что сервер не считывает лишние строки из таблицы, если необходимо убедиться, что запись существует, в какой-либо таблице.

Если вы взгляните на планы для обоих запросов с JOIN и EXISTS в статье, то увидите, что в обоих случаях делается полный скан таблиц, и считывается 830 записей из salesorder и 2155 из orderdetail. Разница в стоимости запросов в данном случае из-за ошибки оптимизатора PostgreSQL, который решил, что в первом случае после join останется 2155 записей, а во втором 830, что явная ошибка так как их должно остаться одинаково. В реальности я бы сказал,что второй запрос будет дороже из-за дополнительного HashAggregate stage.

Вообще, если взглянуть на проблему JOIN и EXISTS шире, то хороший оптимизатор старается переписать запрос, который использует подзапросы, как в случае с JOIN, в запрос с JOIN, что, кстати, и произошло в данном случае, если вы взляните на планы.

В друих случаях, я бы доработал примеры, например, в случае с BETWEEN не продемонстрировано использовование индекса в одном случае и полного скана в другом. И я бы переименовал этот совет - речь ведь больше не про BETWEEN, а про то, что в ряде случаев из-за использование функций, индексы становится невозможно использовать и по\тому лучше избегать использования функций на проиндексированных колонках.

Ни в одном из примеров не продемонстрировано, что перезаписывание действительно делает запрос быстрее, только показана оценка стоимости запроса. Но доверять ей не стоит так как оптимизаторы баз данных частенько ошибаются в них. Хорошо было бы увидеть выигрыш во времени исполнения на реалистичных данных (а не на таблицах с парой тысяч записей) и с использованием индексов.

sshikov 3 янв 2025 в 11:44

Примерах? Да тут примеры вообще ничего не показывают...

Обнаружилось, что при большом количестве значений скорость запроса сильно падает, если используется IN.

Во-первых, вот это утверждение само следовало бы подтвердить измерениями. Потому что строго говоря, на число значений в IN есть практический лимит (пусть даже не в СУБД, так в JDBC драйвере, например), т.е. померять следовало бы хотя бы 1, 10, 100, 1000 и 100000 значений в IN. Кроме того, "обнаружилось" что c IN (1, 2, 3, ...) всегда работает быстро, если в колонке c всегда 1 (и я тоже не буду это доказывать - если это не так, это баг). Т.е. вот это вот "скорость сильно падает" зависит еще и от распределения значений в колонке слева от IN.

А дальше следует пример с двумя значениями в IN, и двумя значениями в VALUES, и при этом разницы в быстродействии мы практически не видим, т.е. она на грани погрешности измерения (и как вы уже отметили, кост в плане - не показатель вообще).

Satyricon 3 янв 2025 в 14:12

в ряде случаев из-за использование функций, индексы становится невозможно использовать и по\тому лучше избегать использования функций на проиндексированных колонках

В постгрес есть функциональные индексы. Очень выручали при рефакторинге текущих решений, когда, например, столбец с номерами автомобилей превращался в мешанину русских и английских букв в различных регистрах (не продумали заранее). Индекс по функции fn_normalize(gosnumber) сильно исправляет ситуацию.

taskevich 3 янв 2025 в 11:25

Можно еще использовать CTE(Common Table Expressions) для оптимизации запросов. Жаль, что в статье ничего не сказано

PB_Academy 3 янв 2025 в 12:03

Добрый день, в блоке пред оптимизационные шаги описана CTE

taskevich 3 янв 2025 в 12:47

Увидел. Тогда жаль, что для CTE один пункт выделен, хотя можно было и подробно расписать о его работе.

PB_Academy 3 янв 2025 в 13:28

Понимаю, учту на будущее

Satyricon 3 янв 2025 в 14:15

CTE далеко не всегда помогает в оптимизации. У меня есть кейс, когда CTE, переписанный на временные таблицы, ускорялся с 10 минут до 7 секунд.

ptr128 3 янв 2025 в 15:18

Иногда помогает materialized.

К сожалению, то, как временные таблицы реализованы в PostgreSQL, приводит к необходимости их избегать, когда это возможно. Или средствами CTE, или, если результат временной выборки используется неоднократно и требует индексации, то средствами нежурналируемых таблиц.

В рамках одного оптимизируемого запроса, использование временных таблиц может дать явный прирост производительности. Но в рамках конкурентной среды с относительно длительными транзакциями, общая производительность может ухудшиться.

miksoft 3 янв 2025 в 13:50

Стоило бы убрать Big Data из тэгов, к бигдате статья не имеет отношения. И добавить PostgreSQL в заголовок и в тэги. Как раньше пользователи MS SQL считали, что он и есть SQL, так теперь пользователи PostgreSQL считают, что он и есть SQL. Хотя, разумеется, это не так в обоих случаях.

Статья банальная, такие регулярно выходят на Хабре. Ничего нового не увидел.

В ряде мест подача какая-то вывернутая наизнанку. Например, не BETWEEN выполняется быстрее, а использование конструкции функция(поле) часто делает невозможным использование индекса по этому полю. Но это не значит, что BETWEEN обладает каким-то особенным волшебством.

Почему-то под картинками подпись "Скорость ...", хотя на них никакой скорости не отображено.
Возможно проглядел, но во всей статье не увидел ничего про скорость.

Некоторые советы сомнительные и нуждаются в тщательной аргументации, например, "Использование ранжирования вместо DISTINCT".

"Использование CTE может помочь оптимизировать вычисления".
А может и не помочь. В других SQL-движках встречал вред от CTE, когда CTE выполняется несколько раз (по числу ссылок на него в запросе) и, как следствие, несколько раз читает огромную таблицу.

"Обнаружилось, что при большом количестве значений скорость запроса сильно падает, если используется IN. Это происходит потому, что значение колонки каждой строки поочерёдно сравнивается с каждым из возможных вариантов, тем самым нагружая процессор."
Даже MySQL древних версий умеет из значений в IN строить бинарное дерево и находить соответствие за O(log(n))-время. Неужели PostgreSQL не умеет?

И странное дело - вроде бы картинки в статье в png-формате, однако шрифты дико замылены, как будто их сохраняли в jpg формат с хорошим сжатием.

Ivan22 3 янв 2025 в 14:55

"низкий технический уровень материала"

PB_Academy 3 янв 2025 в 15:30

Добрый вечер, не согласен с вами. С критикой, которая написана соглашусь, есть погрешности. Статья про как переписать запросы с ускорением. На Greenplum данные аспекты хорошо показываются.

Akina 3 янв 2025 в 20:05

Оптимизация сравнения IN

Считаю, что эта часть статьи абсолютно бездарна и просто провалена.

Во-первых, нужно было рассмотреть все три альтернативы - WHERE IN, WHERE EXISTS и INNER JOIN, и соответственно три анти-альтернативы WHERE NOT IN, WHERE NOT EXISTS и LEFT JOIN WHERE IS NULL. Уже на этой стадии возникли бы ба-а-альшие проблемы, потому как в зависимости от структуры хранения и статистики данных оптимальна то она, то другая альтернатива... более того, иногда одна из альтернатив (это прекрасно видно при анализе плана) сервером приводится к другой, иногда нет... На самом деле очень объёмная и интересная тема.

Во-вторых, а где собственно исходные данные для оптимизации? Где структуры, индексы, статистика данных? На непонятно каком исходном материале взята совершенно с потолка пара запросов...

В третьих, где адекватные результаты сделанного (вот никак не могу применить к этому термина "оптимизация")? почему сравнение сделано не для самих запросов, а для предсказаний к этим запросам? Что, большая проблема написать не EXPLAIN, а EXPLAIN ANALYZE? Запрос не изменяет данных, выполняется на крошечном объёме данных, потому никаких осложнений от реального выполнения запроса не ожидается. А ведь порой результат предсказания и результат реального выполнения - это две ну очень большие разницы.

------------------

Дальше - ничуть не лучше. Особенно убивает спрятанное под спойлер с текстом "Код". Это ж насколько надо не уважать читателя, чтобы кинуть ему какой-то непонятный запрос, потом его же, но абы оптимизированный, и полагать, что читателю этого достаточно. А читатель хочет повторить! Нет, запросы из-под спойлера он скопирует, а дальше что?

-------------------

Избегание CASE при проверке булевых полей

А тут просто-таки ерунда написана. Выражения - неэквивалентны.

Просто посмотрите, что будет, еслиt1.is_deleted_row = NULL, а t2.is_deleted_row = FALSE.

PB_Academy 4 янв 2025 в 00:45

Добрый вечер.

По поводу скрытого кода. Для удобства чтения сделано. Если читателю неинтересен код, то он дополнительно не скролит вниз.

По поводу case. Проверка на null и bool значения принято через оператор is. К тому же в PostgreSQL подефолту проверка на true, если указаны операторы and/or.

По поводу не представленных тестовых данных. Если прикреплю ссылку - найдутся пользователи, которые задизлайкают и напишут не для забора. Уже проходили.

По поводу индексов. Индексы не всегда ускоряют. Сводить в статье, что используйте правильно индексы - везде написано. Смысл статьи был как рефакторинг может ускорить запрос. В начале описано, о чем будет статья. Про индексы не было сказано.

sergio_deschino 3 янв 2025 в 20:55

Практически со всеми критикующими я соглашусь, но почему когда люди рассказывают об оптимизации запросов мимоходом упоминают индексы и практически ни разу в статьях такого уровня я не видел разъяснений по этому поводу, не говоря уже о том, что при необходимости, возможности и целесообразности индексы можно …. создать самому! Или для уровня тех, на кого рассчитан материал, это совсем магия по мнению авторов?

Akina 3 янв 2025 в 21:01

Да потому что подавляющее большинство этих статей пишут не для людей, а "для галочки". И в значительном проценте случаев такие статьи пишут люди, которые сами "плавают" в теме.

PB_Academy 4 янв 2025 в 01:00

Добрый вечер. Прошу не что стоит принижать статью до "галочки", а также, что автор "плавает" в теме. Вам не понравилось, что было не рассмотрено exists/in/join на достойном уровне. Я сделаю выводы и в дальнейшем будут тут более качественные статьи.

То, что вы ниже стали писать. Это необъективщина. Вам не понравился блок скрытый, кому-то нравится. Насчёт case, вы также не правы. Прошу использовать при проверке оператор is, а не равенство. Если мы за достойные примеры, то прошу писать принятые практики.

Akina 4 янв 2025 в 19:06

Насчёт case, вы также не правы. Прошу использовать при проверке оператор is, а не равенство.

Да вы что, не отличаете оператор сравнения от оператора присвоения, что ли?

Кстати, вы проверили то, что я написал? убедились, что выражения неэквивалентны? Если всё ещё нет - то вот вам ссылочка: https://dbfiddle.uk/nezOP17J

Вам не понравился блок скрытый, кому-то нравится.

То есть, вы решили, что претензии - к форме, а не к содержанию? иными словами, вы вообще не поняли, что я пишу и чем именно остался не удовлетворён? Или это был единственный способ и вроде бы ответить, и в то же время не признать?

Впрочем, вы абсолютно так же "не так поняли" и соответственно непонятно о чём ответили на мой отзыв чуть выше - причём аж четыре раза подряд.

java_man 4 янв 2025 в 20:04

@Akina вам не понравилась статья, так зачем вы, вместо предложений делаете хейт спич? Вы могли предложить переписать и примеры статей, чтобы читающие комментарии пользователи посмотрели более подробно. А вместо этого демотивируете потенциальных писателей хабра на интересные статьи.

Считаю, что эта часть статьи абсолютно бездарна и просто провалена.

Специально зашел к вам, могу также сказать, что ваши посты можно считать бездарными, но зачем.

Зачем это может понадобиться? не знаю...

У каждого есть своя аудитория. Если вам не нравится, ну пройдите, а не называйте статьями бездарными и тд. Статья хорошая, не идеальная.

PB_Academy 4 янв 2025 в 00:51

Добрый вечер. В статье сказано про рефакторинг запроса. Про индексы не сказано. Сейчас вы предъявляете, что можно создать индексы для ускорения. По мнению автора - создание индекса описано в других статьях по оптимизации запроса. В этой про рефакторинг. Например антипаттерн кореллирующий подзапрос и обычный join.

Если мы возьмём Greenplum, то индексация там лучше не делать.

Q3_Results 4 янв 2025 в 09:31

В очередной раз убедился, что у нас очень токсичная культура критики. Если вы, критики, знаете и можете дать советы, как улучшить - научитесь это делать в форме, которая не отбивает желания у авторов продолжать публикации. Хочу сказать автору спасибо - я узнал что-то новое с точки зрения идейных стратегий или подходов оптимизаций в некоторых случаях. Замеры производительности именно на моих объемах данных и на моих структурах покажут, что из этих идей сработает. А если не сработает, то это не потому что автор написал что-то не то.

И спасибо автору за выбор именно Postgres, т.к. в свете импортозамещения именно эта СУБД актуальна сейчас.

headlyboi 4 янв 2025 в 10:03

Спасибо за статью) Как раз искал как оптимизировать IN

Mazrigosh 4 янв 2025 в 19:13

Мда.

Соглашусь с мнением @Q3_Results. Здешним критикам надо поработать над манерой доносить свою позицию. Критика - это хорошо, но не тогда, когда она доносится языком, за который критика хочется послать... хм, самому писать статью, раз такой умный)

А автору - спасибо за материал и идеи. Filter, кстати, я давно уже полюбил за удобство и читабельность. Про exists хорошо, что написал. Я замечал, что даже довольно опытные коллеги иногда попросту забывают, что он есть.

INFITs 5 янв 2025 в 09:38

Добрый вечер, а мне не хватило информации в статье про анализ плана запроса, про описание хеш джойна, нести лупа чем отличаются, в каких случаях что лучше. А то план есть, кост есть а что в данном плане происходит и почему ни слова.

vasilisc 5 янв 2025 в 10:11

>Использование LIKE позволяет использовать индексы

Только LIKE 'abc%' может использовать индексы, если быть точным.

LIKE '%abc%' и LIKE '%abc' НЕ используют индексы.

miksoft 5 янв 2025 в 10:36

"LIKE '%abc%' и LIKE '%abc' НЕ используют индексы."
Не знаю как в PostgreSQL, а вообще индекс тут может быть использован для полного сканирования индекса вместо полного сканирования таблицы.

Akina 5 янв 2025 в 12:10

Оно, конечно, может - формально. Но придумать сочетание условий, когда сервер пойдёт на сканирование индекса (кроме случаев покрывающего индекса, само собой), будет крайне сложно. А с учётом достаточно жёстких ограничений на размер строковых данных, хранящихся в блоках тела таблицы, которые имеются практически в любой СУБД - это случаи, когда LIKE делается по полю буквально из нескольких, три-пять, не больше, символов. А это - повод задуматься об исправлении ошибки проектирования.

ptr128 5 янв 2025 в 12:51

когда LIKE делается по полю буквально из нескольких, три-пять, не больше, символов. А это - повод задуматься об исправлении ошибки проектирования.

Или использовать расширение pg_trgm c GIN или GIST индексом.

ptr128 5 янв 2025 в 12:48

LIKE '%abc%' и LIKE '%abc' НЕ используют индексы.

Смотря какой индекс. Даже не считая частичный индекс с WHERE Value LIKE '%abc%', можно использовать функциональный индекс:

DROP TABLE IF EXISTS tmp_tmp;
CREATE TEMP TABLE tmp_tmp (
  Id serial,
  Value varchar
);

INSERT INTO tmp_tmp (Value)
SELECT to_hex(O.n)
FROM generate_series(1,1000000) O(n);

CREATE INDEX tmp_tmp_like_val ON tmp_tmp ((Value ~~ '%abc%'));

EXPLAIN ANALYZE
SELECT Id, Value
FROM tmp_tmp
WHERE Value LIKE '%abc%';

Результат:

Index Scan using tmp_tmp_like_val on tmp_tmp  (cost=0.42..15160.12 rows=40000 width=36) (actual time=0.019..0.188 rows=740 loops=1)
  Index Cond: (((value)::text ~~ '%abc%'::text) = true)
Planning Time: 0.062 ms
Execution Time: 0.217 ms

Ну а если совсем честно:

CREATE EXTENSION pg_trgm;
DROP INDEX IF EXISTS tmp_tmp_like_val;
CREATE INDEX tmp_tmp_like_val ON tmp_tmp USING gin (Value gin_trgm_ops);
EXPLAIN ANALYZE
SELECT Id, Value
FROM tmp_tmp
WHERE Value LIKE '%abc%';

Результат:

Bitmap Heap Scan on tmp_tmp  (cost=329.80..6231.80 rows=40000 width=36) (actual time=0.094..0.370 rows=740 loops=1)
  Recheck Cond: ((value)::text ~~ '%abc%'::text)
  Heap Blocks: exact=261
  ->  Bitmap Index Scan on tmp_tmp_like_val  (cost=0.00..319.80 rows=40000 width=0) (actual time=0.062..0.062 rows=740 loops=1)
        Index Cond: ((value)::text ~~ '%abc%'::text)
Planning Time: 0.074 ms
Execution Time: 0.407 ms

Blumfontein 7 янв 2025 в 19:10

>Только LIKE 'abc%' может использовать индексы, если быть точным.

Tree-index, если быть еще точнее

POPSuL 6 янв 2025 в 09:22

Странно, а почему никто не увидел очевидную ошибку в:

WHERE orderdate BETWEEN '2006-07-01 00:00:00'::TIMESTAMP
                     AND '2006-07-31 00:00:00'::TIMESTAMP

?
Тут же должно быть '2006-07-31 23:59:59'::TIMESTAMP, разве не так?

miksoft 6 янв 2025 в 11:50

Если реальное содержимое поля orderdate имеет значения с долями секунд, то ваш вариант потеряет данные из последней секунды.

Если в orderdate долей секунд не бывает, то исходный вариант зацепит лишнюю секунду.

Чтобы не сомневаться, я бы написал так:
WHERE orderdate >= '2006-07-01 00:00:00'::TIMESTAMP AND orderdate < '2006-07-31 00:00:00'::TIMESTAMP

ptr128 6 янв 2025 в 12:35

Вы потеряли всё 31 июля

Я ленивый и пишу такое короче:

WHERE orderdate >= '2006-07-01'::date
  AND orderdate <  '2006-08-01'::date

miksoft 6 янв 2025 в 14:24

"Вы потеряли всё 31 июля "
Да, вы правы, я забыл поправить на 1 августа.

WHERE orderdate >= '2006-07-01'::date
  AND orderdate <  '2006-08-01'::date

В PostgreSQL это, вероятно, нормально.
В других СУБД надо смотреть на правила неявного преобразования типов данных.

POPSuL 6 янв 2025 в 20:35

Если в orderdate долей секунд не бывает, то исходный вариант зацепит лишнюю секунду.
Исходный вариант потеряет всё 31 июля, за исключением 00:00:00.

А с долями секунд да, вы правы, мой вариант не сработает.

Akina 6 янв 2025 в 20:41

а почему никто не увидел очевидную ошибку

Да потому что в неё никто и не смотрел. Речь-то шла о производительности, а не об алгоритмической или логической корректности.

Поле названо orderdate, структуры нет, и по названию априорно предполагаешь, что тип поля - date, а не timestamp.

POPSuL 7 янв 2025 в 06:56

Поле названо orderdate, структуры нет, и по названию априорно предполагаешь, что тип поля - date, а не timestamp.

В таком случае, наверное, вообще должно быть

BETWEEN '2006-07-01'::DATE AND '2006-07-31'::DATE

чтобы уж точно никаких неоднозначностей не было.

И когда речь о производительности, это не значит то, что можно забивать на логическую корректность. В противном случае можно дооптимизироваться до

int rand() {
    return 42;
}

Не смотря на всю полезность статьи (особенно учитывая то, что вообще в последнее время публикуют) тут мы имеем абстрактные оптимизации в вакууме. У нас нет ни схемы таблиц, ни датасета с которым ведутся работы, а без этих вводных нельзя корректно оценить корректность и целесообразность таких оптимизаций. И в целом можно сократить до делайте хорошо, не делайте плохо. :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий