Kilor 26 мар 2020 в 07:20

Рецепты для хворающих SQL-запросов

7 мин

67K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Визуализация данных*

+23

Комментарии 28

vesper-bot 26 мар 2020 в 07:38

А вот ментата надо было харконненовского брать, он колоритнее.

Kilor 26 мар 2020 в 08:08

Он как-то слишком уж довольно ухмыляется и потирает лапки — как бы чего недоброго не натворил…

sshikov 26 мар 2020 в 07:42

А эта штука может быть расширена на другие СУБД? Хотя бы в принципе.

Kilor 26 мар 2020 в 07:44

Алгоритмически — да, для любой СУБД, позволяющей получить план.
Просто нужен абсолютно другой парсер плана и другой набор подсказок == много-много экспертизы.

sshikov 26 мар 2020 в 07:46

Ну да, я догадываюсь, что это нетривиально чисто технически. Т.е. парсим план во что-то типа дерева, потом ищем там паттерны, и даем на основе этого советы.

stgunholy 26 мар 2020 в 10:46

Ну постгрес умеет план в JSON возвращать, а оракл если я помню в XML…

sshikov 26 мар 2020 в 10:54

Да, MS SQL тоже — вот даже схемы опубликованы schemas.microsoft.com/sqlserver/2004/07/showplan

unfilled 27 мар 2020 в 06:10

MS SQL сам индексов нарекомендует, мама не горюй.

dimonuch 28 мар 2020 в 17:17

Да, думаю что может. Одно время я занимался оптимизацией и улучшением производительности запросов в MS SQL (2008 — 2012 версий). В том числе через донастройку индексов. Описанное в статье выглядит очень знакомым и, в общем смысле, применимо к MS SQL. Вплоть до ситуации с WHERE… OR и ее решением через UNION — частый случай у нас был, хотя и в более изощренной форме.

eviland 27 мар 2020 в 08:06

Понимать, что такое план запроса — это очень важно, большая «О» и понимание, что там проиходит внутри базы — вообще бесценно.

Но, увы, далеко не все вникают так глубоко в делали.

У меня огромная просьба, когда вы решаете проблему медленного SELECT созданием очередного индекса — пишите там же, как это изменение повлиет на операции INSERT\UPDATE\DELETE.
Спасибо

Kilor 27 мар 2020 в 08:15

У меня огромная просьба, когда вы решаете проблему медленного SELECT созданием очередного индекса — пишите там же, как это изменение повлиет на операции INSERT\UPDATE\DELETE.

Если в вашей базе сильно доминирует чтение, скажем 1000:1 (а это почти всегда так, за исключением очень редких случаев типа мониторинга), то вы +1 индекс заметите только с точки зрения объема БД, на пишущие операции оно повлияет микроскопически.

edo1h 31 мар 2020 в 20:29

Если в вашей базе сильно доминирует чтение, скажем 1000:1 (а это почти всегда так, за исключением очень редких случаев

не согласен, у меня случаи "нужно писать постоянный поток" сплошь и рядом

edo1h 31 мар 2020 в 20:30

CREATE INDEX ON tbl(fk_cli, pk DESC);

зачем тут desc в индексе? он нужен достаточно редко (в живых, а не учебных базах сходу и не вспоминается такой случай)

Kilor 31 мар 2020 в 21:59

Это исключительно привычка — иметь индекс соответствующий прикладным запросам, чтобы не возникало в плане Index Scan Backward.

edo1h 31 мар 2020 в 22:26

чтобы не возникало в плане Index Scan Backward

оно разве чем-то плохо?
ЕМНИП такой индекс нужен разве что для запросов вроде where fk_cli beween 1000 and 2000 order by fk_cli, pk desc (отбор по индексу + сортировка по нескольким полям индекса)

Kilor 1 апр 2020 в 05:09

Для такого условия индекс будет работать плохо. И DESC на это не повлияет все равно.

edo1h 1 апр 2020 в 05:16

с чего бы это для условия A between 1000 and 2000 индекс (A, B) будет работать плохо?!?

Kilor 1 апр 2020 в 05:29

Для этого условия он будет работать нормально. А вот необходимость 1000 раз заглянуть на уровень ниже и взять «последний» pk резко добавляет нагрузки.
Вот если бы order by fk_cli, pk desc limit 1000 без условия на fk_cli… Но это уже совсем другой запрос.

edo1h 1 апр 2020 в 05:39

заглянуть на уровень ниже и взять «последний» pk

откуда взялся последний pk?

Kilor 1 апр 2020 в 05:42

Из order by же. Как иначе мы сможем получить сортировку по паре ключей?

edo1h 1 апр 2020 в 06:00

я вас не понимаю.
вот смотрите, пусть у нас есть миллион fk_cli, каждому соответсвует 10 pk.
нам надо выбрать примерно 10к записей, где fk_cli в отсортированы в прямом порядке, pk — в обратном (или наоборот, не важно).

в этом случае индекс (fk_cli, pk desc) будет работать идеально, ничего более оптимального нет (индекс даст и нужный диапазон, и нужную сортировку)

случай, конечно, достаточно надуманный, но других применений подобному индексу не придумывается

Kilor 1 апр 2020 в 06:28

Посмотрите мою статью по ссылке выше. При BETWEEN-условии с сортировкой получается ровно вот этот эффект:

edo1h 1 апр 2020 в 06:44

хорошо, каким способом можно выполнить этот (или экививалентный) запрос быстрее?

Kilor 1 апр 2020 в 06:55

Иногда можно эффективно применить связку unnest + подзапрос/ARRAY.
Но это сильно зависит от условий — например, сколько реальных значений ожидается найти в BETWEEN-диапазоне (насколько он разрежен).

edo1h 1 апр 2020 в 08:37

иногда можно. но не в этом случае. ничего быстрее фильтра «в лоб» по индексу тут не будет, можете проверить

Kilor 1 апр 2020 в 08:51

Так я и не утверждал, что «всегда есть способ сделать лучше» — не всегда. А вот «тут индекс будет работать плохо» — правда, он и в тысяче других случаев может плохо работать. :)

edo1h 1 апр 2020 в 08:53

да с чего вы взяли, что он будет работать плохо?
поиск по дереву, потом последовательный перебор страниц — именно то, для чего btree лучше всего подходит

Kilor 1 апр 2020 в 09:32

Возьмем генератор датасета отсюда и модель индекса отсюда (разве что он по 3 полям, а не по 2):

-- задачи с указанным распределением
CREATE TABLE task AS
WITH aid AS (
  SELECT
    id
  , array_agg((random() * 999)::integer + 1) aids
  FROM
    generate_series(1, 1000) id
  , generate_series(1, 20)
  GROUP BY
    1
)
SELECT
  *
FROM
  (
    SELECT
      id
    , '2020-01-01'::date - (random() * 1e3)::integer task_date
    , (random() * 999)::integer + 1 owner_id
    FROM
      generate_series(1, 100000) id
  ) T
, LATERAL(
    SELECT
      aids[(random() * (array_length(aids, 1) - 1))::integer + 1] author_id
    FROM
      aid
    WHERE
      id = T.owner_id
    LIMIT 1
  ) a;

CREATE INDEX ON task(owner_id, task_date, id);

explain (analyze, buffers, costs off)
SELECT
  *
FROM
  task
WHERE
  owner_id = ANY('{1,2,4,8,16,32,64,128,256,512}'::integer[])
ORDER BY
  owner_id, task_date, id;

"Index Scan using task_owner_id_task_date_id_idx on task (actual time=0.016..0.808 rows=946 loops=1)"
"  Index Cond: (owner_id = ANY ('{1,2,4,8,16,32,64,128,256,512}'::integer[]))"
"  Buffers: shared hit=974"

946 полученных записей в результате чтения 974 страниц данных. Это я и имею в виду, когда говорю, что индекс работает «нехорошо» — если для получения одной записи требуется читать 8KB+ данных.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий