Comments / Profile of Alena0704 / Habr

Алена Рыбакина@Alena0704

Core developer

Subscribers

Маленькие, но мощные оптимизации: как pgpro_planner спасает запросы из мира 1С

Семантически такое переписывание корректно, но практической пользы в нём нет.
NULL в ANY с строгим оператором всё равно не участвует в сравнении, поэтому вынос только не-NULL констант в ANY при сохранении IN (VALUES (NULL)) ничего не меняет.
Без кода это действительно сложно пояснить, но если смотреть на реализацию: btpreprocess_array_keys (используется при обработке индексных условий) игнорирует NULL и работает только с константными значениями. В случае BitmapIndexScan результат дополнительно перепроверяется через ExecQualAndReset, который обращается к данным, хранимым в таблице.) ExecEvalScalarArrayOp также корректно обрабатывает массивы и формирует результат в зависимости от строгости оператора.
Кстати, когда коммитили в 18-ю, добавляли сразу туда NULL элементы и план выглядит так:

postgres=# create table t (x int);
CREATE TABLE
postgres=# explain analyze SELECT x FROM t WHERE x IN (VALUES (0), (1), (NULL), (2));
                                           QUERY PLAN                                           
------------------------------------------------------------------------------------------------
 Seq Scan on t  (cost=0.00..48.25 rows=38 width=4) (actual time=0.020..0.021 rows=0.00 loops=1)
   Filter: (x = ANY ('{0,1,NULL,2}'::integer[]))
 Planning:
   Buffers: shared hit=71
 Planning Time: 3.584 ms
 Execution Time: 0.157 ms
(6 rows)

Маленькие, но мощные оптимизации: как pgpro_planner спасает запросы из мира 1С

Alena0704 Dec 11 2025 at 08:33

Для ванилы мы не поддерживаем, только для энтерпрайза. Хотя для ванилы (кроме мастера) могут быть только пока нестабильные тесты быть), в остальном работает)

Маленькие, но мощные оптимизации: как pgpro_planner спасает запросы из мира 1С

Alena0704 Dec 11 2025 at 08:33

Не тестировали если честно, но думаю можем провести эксперименты и показать результаты)

Built-in replanning как способ корректировать огрехи оптимизатора PostgreSQL

Alena0704 Jun 22 2024 at 16:25

Сама так подумала)

Спасибо за фидбек и интерес к этой теме)

Built-in replanning как способ корректировать огрехи оптимизатора PostgreSQL

Alena0704 Jun 22 2024 at 09:47

Добрый день, пока для 5 таблиц хороший пример, для демонстрации того, о чем говорилось выше я не успела сформировать, но нашла отличный пример из регрессионных тестов Postgres (ветка master).
Кстати, чтобы получить случай тот, что вы хотите - чтобы планнер строил план, как написано, достаточно поставить join_collapse_limit = 1, тогда Postgres построит план так, как вы указали в запросе без использования процедуры планирования, но я не советую это делать. Случаи, когда это может дать ускорение на мой взгляд редкие.

И так, для своего примера использовала таблицу и данные из Postgres, которые он использует для регрессионных тестов.

set
alena@postgres=# CREATE TABLE tenk1 (
        unique1         int4,
        unique2         int4,
        two                     int4,
        four            int4,
        ten                     int4,
        twenty          int4,
        hundred         int4,
        thousand        int4,
        twothousand     int4,
        fivethous       int4,
        tenthous        int4,
);      string4         name,   int4,
CREATE TABLE
alena@postgres=# COPY tenk1 FROM '/home/alena/postgrespro5/src/test/regress/data/tenk.data';
COPY 10000
alena@postgres=# analyze;
ANALYZE
alena@postgres=# CREATE TABLE tenk2 AS SELECT * FROM tenk1;
SELECT 10000
alena@postgres=# analyze;
ANALYZE
alena@postgres=# set from_collapse_limit =8;
SET
alena@postgres=# explain analyze SELECT * FROM tenk1 A INNER JOIN tenk2 B
 ON A.hundred in (SELECT c.hundred FROM tenk2 C WHERE c.odd = b.odd)
 WHERE a.thousand < 750;
                                                            QUERY PLAN                                                             
-----------------------------------------------------------------------------------------------------------------------------------
 Hash Join  (cost=1165.50..10869.88 rows=750000 width=488) (actual time=14.177..310.983 rows=750000 loops=1)
   Hash Cond: (c.odd = b.odd)
   ->  Hash Join  (cost=556.50..1804.62 rows=7500 width=248) (actual time=6.379..12.507 rows=7500 loops=1)
         Hash Cond: (a.hundred = c.hundred)
         ->  Seq Scan on tenk1 a  (cost=0.00..470.00 rows=7500 width=244) (actual time=0.017..3.141 rows=7500 loops=1)
               Filter: (thousand < 750)
               Rows Removed by Filter: 2500
         ->  Hash  (cost=544.00..544.00 rows=1000 width=8) (actual time=6.350..6.352 rows=100 loops=1)
               Buckets: 1024  Batches: 1  Memory Usage: 12kB
               ->  HashAggregate  (cost=534.00..544.00 rows=1000 width=8) (actual time=6.303..6.325 rows=100 loops=1)
                     Group Key: c.odd, c.hundred
                     Batches: 1  Memory Usage: 73kB
                     ->  Seq Scan on tenk2 c  (cost=0.00..484.00 rows=10000 width=8) (actual time=0.006..3.127 rows=10000 loops=1)
   ->  Hash  (cost=484.00..484.00 rows=10000 width=244) (actual time=7.773..7.774 rows=10000 loops=1)
         Buckets: 16384  Batches: 1  Memory Usage: 2824kB
         ->  Seq Scan on tenk2 b  (cost=0.00..484.00 rows=10000 width=244) (actual time=0.022..2.252 rows=10000 loops=1)
 Planning Time: 1.074 ms
 Execution Time: 330.138 ms
(18 rows)
alena@postgres=# set from_collapse_limit =1;
SET
                                                         QUERY PLAN                                                          
-----------------------------------------------------------------------------------------------------------------------------
 Hash Join  (cost=559.00..2251531.75 rows=75000000 width=488) (actual time=18.092..41629.931 rows=750000 loops=1)
   Hash Cond: ((b.odd = c.odd) AND (a.hundred = c.hundred))
   ->  Nested Loop  (cost=0.00..938472.75 rows=75000000 width=488) (actual time=0.067..32202.781 rows=75000000 loops=1)
         ->  Seq Scan on tenk2 b  (cost=0.00..484.00 rows=10000 width=244) (actual time=0.034..9.179 rows=10000 loops=1)
         ->  Materialize  (cost=0.00..507.50 rows=7500 width=244) (actual time=0.000..0.438 rows=7500 loops=10000)
               ->  Seq Scan on tenk1 a  (cost=0.00..470.00 rows=7500 width=244) (actual time=0.018..2.606 rows=7500 loops=1)
                     Filter: (thousand < 750)
                     Rows Removed by Filter: 2500
   ->  Hash  (cost=544.00..544.00 rows=1000 width=8) (actual time=17.575..17.578 rows=100 loops=1)
         Buckets: 1024  Batches: 1  Memory Usage: 12kB
         ->  HashAggregate  (cost=534.00..544.00 rows=1000 width=8) (actual time=17.471..17.518 rows=100 loops=1)
               Group Key: c.odd, c.hundred
               Batches: 1  Memory Usage: 73kB
               ->  Seq Scan on tenk2 c  (cost=0.00..484.00 rows=10000 width=8) (actual time=0.010..8.377 rows=10000 loops=1)
 Planning Time: 1.024 ms
 Execution Time: 41661.372 ms
(16 rows)

Обратите внимание, что если вы построете план, как есть (второй план), у вас для Nested Loop вместо 7500 туплов приходит на обработку 75000000, потому что а первом плане, вы фильтруете условием (a.hundred = c.hundred) и по сути у вас получаются все уникальные туплы из столбца а и на Hash Join вы обрабатываете меньшее количество туплов, чем во втором плане.

Другой пример, связанный с параметризацией, содержит в таблицах малое количество данных, потому не будет так очевиден по времени, но по количеству обрабатываемых туплов, можно сделать выводы:

alena@postgres=# create temp table nt1 (
  id int primary key,
  a1 boolean,
  a2 boolean
);
create temp table nt2 (
  id int primary key,
  nt1_id int,
  b1 boolean,
  b2 boolean,
  foreign key (nt1_id) references nt1(id)
);
create temp table nt3 (
  id int primary key,
  nt2_id int,
  c1 boolean,
  foreign key (nt2_id) references nt2(id)
);

insert into nt1 values (1,true,true);
insert into nt1 values (2,true,false);
insert into nt1 values (3,false,false);
where nt3.id = 1 and ss2.b3;_id is not null) as a3 from nt1) as ss1
CREATE TABLE
CREATE TABLE
CREATE TABLE
INSERT 0 1
INSERT 0 1
INSERT 0 1
INSERT 0 1
INSERT 0 1
INSERT 0 1
INSERT 0 1
INSERT 0 1
INSERT 0 1
alena@postgres=# set join_collapse_limit =8;
SET
alena@postgres=# explain analyze select nt3.id
from nt3 as nt3
  left join
    (select nt2.*, (nt2.b1 and ss1.a3) AS b3
     from nt2 as nt2
       left join
         (select nt1.*, (nt1.id is not null) as a3 from nt1) as ss1
         on ss1.id = nt2.nt1_id
    ) as ss2
    on ss2.id = nt3.nt2_id
where nt3.id = 1 and ss2.b3;
                                                        QUERY PLAN                                                        
--------------------------------------------------------------------------------------------------------------------------
 Nested Loop  (cost=0.46..16.56 rows=1 width=4) (actual time=0.087..0.092 rows=1 loops=1)
   ->  Nested Loop  (cost=0.31..16.35 rows=1 width=9) (actual time=0.065..0.069 rows=1 loops=1)
         ->  Index Scan using nt3_pkey on nt3  (cost=0.15..8.17 rows=1 width=8) (actual time=0.045..0.048 rows=1 loops=1)
               Index Cond: (id = 1)
         ->  Index Scan using nt2_pkey on nt2  (cost=0.15..8.17 rows=1 width=9) (actual time=0.011..0.011 rows=1 loops=1)
               Index Cond: (id = nt3.nt2_id)
   ->  Index Only Scan using nt1_pkey on nt1  (cost=0.15..0.19 rows=1 width=5) (actual time=0.018..0.019 rows=1 loops=1)
         Index Cond: (id = nt2.nt1_id)
         Filter: (nt2.b1 AND (id IS NOT NULL))
         Heap Fetches: 1
 Planning Time: 0.748 ms
 Execution Time: 0.197 ms
(12 rows)
alena@postgres=# set join_collapse_limit =1;
SET
alena@postgres=# explain analyze select nt3.id
from nt3 as nt3
  left join
    (select nt2.*, (nt2.b1 and ss1.a3) AS b3
     from nt2 as nt2
       left join
         (select nt1.*, (nt1.id is not null) as a3 from nt1) as ss1
         on ss1.id = nt2.nt1_id
    ) as ss2
    on ss2.id = nt3.nt2_id
where nt3.id = 1 and ss2.b3;
                                                        QUERY PLAN                                                        
--------------------------------------------------------------------------------------------------------------------------
 Hash Join  (cost=72.19..112.01 rows=1 width=4) (actual time=0.127..0.139 rows=1 loops=1)
   Hash Cond: (nt2.id = nt3.nt2_id)
   ->  Hash Join  (cost=64.00..101.02 rows=1070 width=4) (actual time=0.050..0.059 rows=2 loops=1)
         Hash Cond: (nt2.nt1_id = nt1.id)
         Join Filter: (nt2.b1 AND ((nt1.id IS NOT NULL)))
         Rows Removed by Join Filter: 1
         ->  Seq Scan on nt2  (cost=0.00..31.40 rows=2140 width=9) (actual time=0.014..0.016 rows=3 loops=1)
         ->  Hash  (cost=34.00..34.00 rows=2400 width=5) (actual time=0.018..0.019 rows=3 loops=1)
               Buckets: 4096  Batches: 1  Memory Usage: 33kB
               ->  Seq Scan on nt1  (cost=0.00..34.00 rows=2400 width=5) (actual time=0.010..0.013 rows=3 loops=1)
   ->  Hash  (cost=8.17..8.17 rows=1 width=8) (actual time=0.065..0.066 rows=1 loops=1)
         Buckets: 1024  Batches: 1  Memory Usage: 9kB
         ->  Index Scan using nt3_pkey on nt3  (cost=0.15..8.17 rows=1 width=8) (actual time=0.054..0.058 rows=1 loops=1)
               Index Cond: (id = 1)
 Planning Time: 0.702 ms
 Execution Time: 0.272 ms
(16 rows)

Обратите внимание на условие Hash Cond: (nt2.id = nt3.nt2_id) во втором запросе (где план формируется практически, как мы написали), оно в запросе 2, когда мы дали возможность планнеру подумать над планом перенесло его в фильтр сканирования индекса в первом запросе:

->  Index Scan using nt2_pkey on nt2  (cost=0.15..8.17 rows=1 width=9) (actual time=0.013..0.013 rows=1 loops=1)
               Index Cond: (id = nt3.nt2_id)

Это позволло перед выполнения Join ноды (Nested Loop) сократить немного объем данных. в данном примере на один тупл, конечно, но представьте себе профит, если увеличить размер таблицы, насколько сократиться время выполнения, потому что будет меньше объема данных обрабатываться.

Остальные, похожие примеры вы можете сами посмотреть, если добавить в конфигрурацию постреса join_collapse_limit=1, рестарт инстанса и запустите make installcheck-world. Конечно, у вас в регрессионных тестах будут отображены изменения планов, но думаю вы найдете дополнительные примеры поясняющие ответ на ваш вопрос. Если не очень понятно, могу скинуть код bash.

Built-in replanning как способ корректировать огрехи оптимизатора PostgreSQL

Alena0704 Jun 19 2024 at 16:29

Он вышел из статуса “эксперементальныйй”, но не достиг вершины статуса своего развития) Можете найти его в Enterprise16
https://postgrespro.ru/docs/enterprise/16/realtime-query-replanning-how

Built-in replanning как способ корректировать огрехи оптимизатора PostgreSQL

Alena0704 Jun 19 2024 at 16:27

То, что предложили вы, может сработать для небольших по сложности запросов (если в них указано малое количество таблиц). Потому что связать их как есть бывает дорого. Для оптимизатора стоит цель сформировать такой план с таким порядком соединений, чтобы на уровне выше executor обрабатывал как можно меньшее количество строк, что можно для нод находящимся на уровне ниже. Кстати, это могут жать параметризованные ноды, так как из-за наличия условия соединения, что фильтруют туплы, у нас получается меньшее количество туплов на выходе для выполнения ноды выше. Чтобы найти правильный порядок соединений, оптимизатору нужно пересмотреть комбинацию таблиц для составления справедливых пар (или джойнов). Под словом справедливый я подразумеваю, что иногда невозможно составить джойн двух таблиц из-за сохранения логической эквивалентности.
К тому же, стоит учесть, что оптимизатор умеет переставлять местами inner join, но не может это сделать с outer join.

Вы можете посмотреть доклад из PGConf Canada 2024, чтобы понять подробнее, как оптимизатор работает, если интересно (с 12 слайда).

https://speakerdeck.com/yuyawatari/performance-improvements-of-partitioning-past-and-future-pgconf-dot-dev-2024?slide=12

Built-in replanning как способ корректировать огрехи оптимизатора PostgreSQL

Alena0704 Jun 19 2024 at 16:13

В текущей статье было предоставлено описание работы базового прототипа, но можно данные триггеры установить на ноды, запросы и пр.

Built-in replanning как способ корректировать огрехи оптимизатора PostgreSQL

Alena0704 Jun 19 2024 at 16:12

c 16 версии Enterprise. В будущем скорее всего предоставим патч в коммьюнити

Information

Specialization