CrushBy Sep 27 2023 at 09:18

PostgreSQL и временные таблицы

Medium

9 min

46K

lsFusion corporate blogOpen source * PostgreSQL * Database Administration * 1C *

+49

Comments 51

igor_suhorukov Sep 27 2023 at 13:07

Ох, давно жду in memory table в PostgreSQL

CrushBy Sep 27 2023 at 14:27

Ну в целом, если у вас очень большие shared_buffers, и поставить очень долгий checkpoint, а wal вынести куда-нибудь отдельно, то чтения и записи диска будет минимально.

Другое дело, что конечно для хранения исключительно в памяти подойдет лучше другая архитектура. Но тогда непонятно, что делать с ACID, и как сделать, чтобы можно было использовать в OLTP системах.

igor_suhorukov Sep 27 2023 at 16:54

Исключительно для temporary table/тестов. Где совсем не нужна транзакционность и MVCC, WAL и все оверхеды в PostgreSQL связанные с ними.

Veidt Sep 28 2023 at 12:15

Ну в temporary table я бы не сказал, что прям совсем не нужна транзакционность. Потому как если в них хранятся какие-то (пусть и временные) данные, вы проводите транзакцию и, в том числе, изменяете эти временные таблицы (что бывает часто), а потом ловите скажем update conflict, то вам нужно заново начать транзакцию. И если вы не откатите временные таблицы на начало транзакции у вас будет нецелостное состояние и повторить транзакцию заново (что подразумевается при update conflict) уже не получится.

ptr128 Sep 29 2023 at 12:05

Там, где ACID не обязателен, можно разгрузить wal при помощи unlogged table, используя их повторно с идентификатором процесса и очищая их delete.

CrushBy Sep 30 2023 at 04:53

Да, такой подход возможен, но мы не можем это использовать, как минимум, по трем причинам. Во-первых, определенный ACID нужен (в том числе и для временных таблиц, чтобы при откате транзакции не потерялись в них данные). Во-вторых, временные таблицы создаются автоматически в разных случаях, и если держать unlogged table под все случае для всех разновидностей ключей/колонок - их будут тысячи. А в третьих, если все записывать в одну таблицу, то на 2000 пользователях, где у каждого будет по 100 записей, то в таблице будет 200.000 записей, и работа с ней будет значительно медленнее, чем с 2000 таблиц по 100 (скорее всего, даже не окупятся затраты на дополнительный DDL).

ptr128 Sep 30 2023 at 06:11

работа с ней будет значительно медленнее, чем с 2000 таблиц по 100

Откуда это утверждение? По моему опыту - с точностью наоборот. Речь не идет о секционировании, но тут и объемы еще далеки для это.

CrushBy Sep 30 2023 at 08:03

Быстрее, как минимум, по двум причинам :

Во всех seq scan / index scan по этой таблице, который появятся в плане запроса, будет пробег и фильтрация не по 200.000, а по 100 записям.
Будет гораздо правильнее статистика, так как PostgreSQL не придется гадать сколько записей отсечется по фильтру идентификатора процесса, а он точно будет знать количество записей в таблице и будет строить план исходя из этого.

ptr128 Sep 30 2023 at 15:17

Я просил ссылку на источник такого утверждения, а не теоретические выкладки без описания повторяемого эксперимента.

К тому же выкладки ложные.

По 100 записям в таблице всегда будет full scan, а по 200 тыс. - только если нет такого индекса.
Если выборка идет только по индексированному номеру сессии, то он никак не затрагивает другие сессии. То есть "пробег и фильтрация" будет в любом случае по 100 записям.

Так что все же сначала докажите свое утверждение. Я хотел бы увидеть сравнение издержек на работу с 4 тыс. файлами для 2 тыс. таблиц, по сравнению с издержками на BTree индекс по 2 тыс. сессиям, которые помещаются в одну 8К страницу БД.

CrushBy Oct 1 2023 at 08:10

Издержки бывают разные. Есть разные ресурсы (CPU/память/диск) и при каждом подходе где-то могут одни ресурсы больше использоваться, а где-то другие.

Важно понимать, что есть накладные расходы просто на использование индексов. Например, не забывайте, что во-первых, просто сложность пробега по индексу - это логарифм. Во-вторых, это фактически отдельный relation с точки зрения PostgreSQL, и PostgreSQL при прогоне по индексу будет использовать два relation вместо одного, что уже допрасходы (для решения этой проблемы даже придуман Index Only Scan, но он в редких случаях только подходит). Ну а в третьих, как я и писал выше - статистика. При индексе всегда идет эвристика для расчета количества записей. Если Вы анализировал тысячи разных планов, то должны понимать насколько в PostgreSQL важна правильная статистика.

Сравнение же конкретных тестов - это сферический конь в вакууме. В определенных случаев, у Вас может работать на 30% быстрее, а в других случаях в 10 раз медленнее. Все зависит от конкретных запросов и планов.

ptr128 Oct 1 2023 at 10:58

Все же вернемся к нашим баранам. На основании какого эксперимента Вы утверждаете, что издержки на работу с 4 тыс. файлами для 2 тыс. таблиц меньше, чем издержки на BTree индекс по 2 тыс. сессиям в одной таблице с двумя файлами? И как этот эксперимент повторить?

А вот уже после этого у нас будет не сферический конь в вакууме, а хоть какая-то основа для конструктивного разговора.

danolivo May 2 at 08:02

Если я правильно понимаю уважаемого @CrushBy, то кейс достаточно очевиден:

На небольшой таблице статистика будет максимально точна. А раз она для одного пользователя, то и типичные перекосы данных внутри колонки будут сильно меньше == оптимизатору будет легче построить корректный план выше по дереву
Не нужны индексы. И это сразу ускоряет планирование и манипуляции с такой таблицей
Нет параллельного доступа из соседних бэкендов
В случае, если пользователь нажал кнопку "Сохранить" и выполнил свою операцию, то не нужен дорогостоящий DELETE, достаточно быстрого TRUNCATE

Так что да, насколько я не люблю временные таблицы, могу согласиться, что в описанном выше кейсе это практически безальтернативный подход в PG.

ptr128 May 2 at 11:20

Вы забываете, что information schema одна на всех пользователей. И то, что Вы потенциально можете выиграть при работе с небольшой таблицей, теряется на обновлении этой схемы при создании и удалении таблиц. А когда вспоминаем про MVCC и VACUUM, становится совсем грустно, так как проблема начинает касаться вообще всех запросов и всех пользователей, а не только одной таблицы.

Не верите - проверьте. Я в свое время тесты производил и остановился на нежурналируемых таблицах.

danolivo May 2 at 13:18

Ну в моих кейсах создание, удаление и изменение таблиц это вообще грустная тема. Старт нового бэкенда - слишком дорогое удовольствие, а удаление временных таблиц - считай катастрофа, поскольку так недалеко дожить и до распухания системного каталога.

Поэтому основной аспект, на который обращаю внимание - это всё-таки хорошая статистика, локальность и низкий оверхед. А любой DDL после создания схемы и инициализации бэкенда считается плохим стилем. В принципе, этот trafe-off типичен для Postgres-форков - уж такая архитектура.

Grass_hopper Oct 1 2023 at 07:56

У нас данные "временных" таблиц используются только в пределах транзакции, поэтому выбрали такое же решение с unlogged table. Поскольку данные используются только в пределах транзакции, то каждая транзакция видит только данные, которые она сама и создала.

CrushBy Oct 1 2023 at 07:59

Да, это конечно решает логическую проблему, но интересно было бы увидеть план в работе с такими таблицами. Ведь, если не делать ANALYZE (или если не сработает autoanalyze), то откуда PostgreSQL будет знать правильную статистику по ней ? А если он не будет знать (и считать, что там, например 0 записей), то может быть много проблем с неправильным планом.

Portnov Oct 4 2023 at 16:13

А почему autoanalyze должен не сработать?
Это для временных таблиц autoanalyze не работает, а для unlogged — вполне себе работает.

CrushBy Oct 5 2023 at 05:17

Мне всегда казалось, что autoanalyze - фоновый процесс. А основной кейс использования временных таблиц - INSERT, а потом сразу же SELECT JOIN эту временную таблицу. В случае, со временными мы делаем TRUNCATE - INSERT - ANALYZE (в явную) - SELECT. А как с unlogged autoanalyze успеет обновить статистику между INSERT и SELECT ?

Но в целом, мне не доводилось использовать unlogged tables, поэтому я по ним знаю не так много. Судя по документации, запись в них просто не отражается в wal. Но в остальном структура хранения, насколько я понимаю такая же ? Если так, то возникает вопрос. Описанный выше кейс использования временных таблиц, как будет с unlogged ? Сначала DELETE, а потом INSERT ? А кто тогда старые записи очистит ? Autovacuum постоянно будет их насиловать ? Но даже, если не autovacuum, а в DELETE есть отдельная ветка для unlogged, то все равно же может быть сильная фрагментация, как с обычными таблицами.

ptr128 Oct 5 2023 at 06:12

А как с unlogged autoanalyze успеет обновить статистику между INSERT и SELECT ?

А это не всегда нужно. Если в нежурналируемую таблицу пишут все пользователи, то, не редко, статистика у этих пользователей не сильно различается. В исключительных случаях действительно оправдано обновление статистик явным вызовом ANALYZE

CrushBy Oct 5 2023 at 16:49

А если отличается ? Если кто-то записал 2 записи и выгоднее сделать Nested Loop, а кто-то 20.000 и там Hash join нужен ? Да, PostgreSQL выберет в таком случае какой-то усредненный вариант, но он может быть не самым эффективным.

А явный вызов ANALYZE пойдет по всей таблице, а не только по тем записям, которые изменились.

ptr128 Oct 5 2023 at 17:21

Во-первых, 2 или 20 тыс. - разница ничтожна. Это не 2 и 20 миллионов.

Во-вторых, раз в эту таблицу может какой-то процесс записать 20 тыс. записей, то, с большой вероятностью, это уже было. А значит будет учтено в статистиках и вероятность явно плохого плана будет низка.

В-третьих, при явном вызове ANALYZE по всей таблице не подойдет. default_statistics_target по умолчанию вообще 100 и сильно увеличивать его не стоит.

ANALYZEtakes a random sample of the table contents, rather than examining every row

https://www.postgresql.org/docs/current/sql-analyze.html

Так что плохой план Вы можете получить и после ANALYZE. Просто потому, что с рандомом не повезло.

ptr128 Sep 29 2023 at 12:02

Если не требуется индексов, то обхожусь массивами записей. Иногда даже когда нужна индексация, scan where в unnest даёт меньший оверхед, чем temp table с индексом. Собственно говоря, если добавить в массивы индексацию, то и получим in memory temp table.

CrushBy Sep 30 2023 at 04:55

У нас временные таблицы создаются автоматически. И, к сожалению, заранее неизвестно сколько там будет записей (чаще всего, чтобы посчитать количество записей, которые вернет запрос, по сложности сопоставимо с выполнением самого запроса). И если там окажется 100.000 записей, то таким темпами можно забить всю память. А с временными таблицами есть защита, что в случае превышения temp_buffers они пойдут на диск.

ptr128 Sep 30 2023 at 06:04

Я имел в виду исключительно те случаи, где применимы in memory tables. Там где они не применимы из-за большого количества записей, там не применимы и массивы.

Ну и 100 тыс. записей вполне приемлемо. Если они по килобайту, то это всего 100 МБ, что для сервера с десятками (если не сотнями) гигабайт памяти не так уж много.

CrushBy Sep 30 2023 at 08:07

Разница в том, что у вас скорее всего конкретные запросы для конкретных целей, в которых вы в принципе знаете, сколько там должно быть записей. В нашем случае мы автоматически генерируем запросы на основе логики, описанной разработчиком на высокоуровневом языке. По этой причине мы не можем знать заранее сколько там будет записей. Да, у нас есть определенная статистика по таблицам, но как только включается фильтрация, то возможны варианты.

Например, если у вас в строках документов в среднем 20 записей, но есть документ на 30.000 (а такое бывает, например, ввод начальных остатков). И тогда все предсказание в общем случае рушится.

Что касается 100МБ, то проблема как раз в том, что если там случайно окажется 100ГБ, то у вас может просто oom killer сработать и убить весь процесс postgresql. Для временных таблиц есть ограничитель в виде temp_buffers.

ptr128 Sep 30 2023 at 15:22

Игорь написал:

Ох, давно жду in memory table в PostgreSQL

Я ему ответил:

Если не требуется индексов, то обхожусь массивами записей.

Потом еще раз уточнил:

Я имел в виду исключительно те случаи, где применимы in memory tables.

А теперь объясните пожалуйста, что Вы пытаетесь донести своим ответом?

gpin Sep 27 2023 at 19:02

В частности, они гарантировано не используются несколькими подключениями одновременно

А чем обеспечивается эта гарантия? Сама СУБД запрещает использовать одну временную таблицу двумя подключениями?

Мне казалось, я что-то такое делал

UFO landed and left these words here

grufos Sep 28 2023 at 12:25

Временные таблицы хранятся пока конкретный сеанс с БД существует. Соответственно, если произойдет разрыв коннекта, то временные таблицы исчезнут. Как вы решаете эту проблему? Ведь пользователь может долго что-то делать, прежде чем решит нажать на кнопку сохранить. К этому моменту, в связи с особенностями инфраструктуры, коннект к БД может быть оборван. Вы как-то умеете восстанавливать все ранее записанные данные во временные таблицы ? К примеру ведете свой транзакционный лог...или как-то иначе... И ещё ведь такой подход требует иметь возможность подключения к БД одновременно всех заявленных пользователей, а это может быть очень большое число....Это приведет к большому расходу ресурсов сервера и к замедлению его работы.

CrushBy Sep 28 2023 at 12:37

Да, если произойдет разрыв соединения данные теряются. Но на практике разрывы соединения у нас бывают только, если сеть ляжет (что маловероятно, сервер приложений и сервер БД обычно соединены очень коротким путем), либо если весь PostgreSQL ляжет, что бывает крайне редко.

По сути, нужно такое же количество соединений, сколько и количество одновременно работающих пользователей. И да, в PostgreSQL одно соединение - один процесс в ОС. Приводит ли это к большому расходу сервера и замедлению работы ? Все относительно.

Вот сейчас снял на одном из работающих серверов :
ps aux | grep postgres | wc -l Результат : 2284Собственно, там сейчас залогинено приблизительно такое же количество пользователей. Shared buffers - 256GB, temp_buffers и work_mem по 96MB. Да, каждый процесс использует свое количество памяти, но соединения автоматически время от времени закрываются и открываются, что убивает процессы и очищает память (новый процесс тратит немного памяти). Всего этими процессами вне shared_buffers используется 150ГБ памяти. При этом есть еще большой резерв по памяти.
Если честно, не наблюдал какого-то overhead'а idle процессами postgres. Если он и есть, то не очень большой.

ptr128 Sep 29 2023 at 12:10

Я выкручиваюсь через unlogged tables, добавляя в уникальный ключ идентификатор процесса. Но вот truncate к ним тогда не применим. Только delete. Зато delete на них выполняется быстро. И статистики не нужно обновлять на каждый чих.

rombell Sep 29 2023 at 07:26

Вы используете пул соединений? Баунсер или что-то другое?

Veidt Sep 29 2023 at 13:11

Есть внутренний пул соединений, куда складываются неиспользуемые потоками соединения без временных таблиц / транзакций, и потом выдаются при необходимости новым потокам. Но так как таких соединений не сильно много по понятным причинам, особой роли этот пул не играет.

Правда есть важный механизм асинхронного "перестарта соединений", когда отдельный поток периодически собирает (весьма хитрым скорингом) соединения, которые давно работают, использовали много временных таблиц, и т.п. и асинхронно перестартовывает такие соединения (создает новое соединение, копирует все временные таблицы в новое соединение, закрывает старое соединение, и это все не прерывая поток использующий старое соединение). Это очень важно, так как у PostgreSQL есть не совсем объяснимая утечка памяти на долгоживущих соединениях, использующих временные таблицы. Кстати этот же механизм перестарта соединений может использоваться в том числе для кластеризации. Баунсеры к сожалению такого делать не умеют (они просто ограничивают использование временных таблиц ЕМНИП).

ЗЫ: Есть еще пул временных таблиц в соединении, но это из другой оперы.

rombell Sep 29 2023 at 14:35

спасибо, любопытно

mazdayka Oct 1 2023 at 07:55

"Если временные таблицы изменялись внутри транзакции, а она потом откатывается, то и временная таблица вернется в состояние до начала транзакции" - каламбур как то... Кто "она"? Временные таблицы откатились, то и временная таблица откатилась и треснула от смеха.

CrushBy Oct 1 2023 at 08:01

"Она" относится к последнему существительном (в данном случае "транзакции"). Но исправил в статье, чтобы не было двойного толкования. Суть в том, что, например, у вас во временной таблице t0 было 10 записей, потом началась транзакцию, и внутри ее таблица очистилась. Нужно, чтобы после отката транзакции в ней опять было бы 10 записей.

mazdayka Oct 1 2023 at 08:26

Я думаю что можно вычисления сделать на ресурсах пользователя, затем при сохранении отправить на сервер и если нужно пересчитать. И не нужно будет на сервере хранить тысячи временных таблиц

Veidt Oct 1 2023 at 09:54

Вопрос в том, что в сложных логиках (не обычных CRUD) большинство данных для вычислений есть только на сервере (например цены товаров, условия поставки и т.п.), соответственно придется эти данные туда сюда на клиента гонять как минимум. Не говоря уже о том, что для вычислений придется императивщину вместо SQL использовать. Т

о есть непонятно в чем смысл. Использовать вычислительные ресурсы клиента, за счет большего трафика, неудобства разработки (то есть к SQL и условной Java / Python серверной логике еще клиентский JavaScript добавить) и т.п.? И это не говоря еще о безопасности.

mazdayka Oct 3 2023 at 15:28

есть еще интересная штука как хранимая процедура.

1CUnlimited Oct 5 2023 at 11:06

Кроме того, после добавления записей во временную таблицу приходится делать ее ANALYZE, чтобы PostgreSQL знал правильную статистику данных в ней. ANALYZE, в свою очередь, также изменяет системные таблицы и обращается к диску (в функции visibilitymap_count).

Analyze это очень проблематичная вещь. Вот например 1С при каждой записи набора ее вызывает (не важно там 10 записей или 1000) и в результате имеем 30% расхода производительности на этот оператор Postgres как предчувствие. Вычисляем процент импортозамещения в режиме Highload от 1С / Хабр (habr.com)

Т.е. ее получается нужно вызвать в зависимости от количества записей? Чтобы на маленьких Full scan а на больших уже по статистике

Fasttruncate тоже не особенно быстрый по моим замерам (30% т.е. это не выглядит как классический truncate c high watermark) но как я понимаю альтернатив нет?

Однако существует один подход в Linux, который позволяет значительно уменьшить использования диска временными таблицами. Он заключается в выделении для временных таблиц отдельного RAM-диска. Причем для этого не требуется никаких изменений в коде программы, а указанную процедуру можно делать на работающей базе без остановки СУБД или приложения.

Почему Вы уверены, что менеджер RAM диска (процесс или что там управляет Ram диском) переварит конкурентную запись с многих потоков и не повиснет просто на одном ядре под 100%, даже если остальные ядра свободны?

Просто Postgres легко может бомбить запросами его с 50 бэкэндов , а RAM для их обработки нужно иметь процессы которые принимают это с нескольких ядер (это уже непростая архитектура)

Я просто смотрел RAM диски для win и не на одном не нашел упоминания о многопоточной обработке и вот у некоторых это вылезает на тесте Тестирование скорости работы 1C в режиме файловой версии, MS SQL и POSTGRES на HDD, SSD и RAMDisk / Хабр (habr.com)

ptr128 Oct 5 2023 at 13:48

Хочу обратить внимание, что в обоих статьях, на которые Вы ссылаетесь, PostgreSQL запускался под Windows. Одного этого достаточно, чтобы получить просадку производительности на 20-30% в ряде сценариев. Уж слишком болезненно обходятся ненужные копирования памяти при fork() без CoW, неэффективная эмуляция shared memory и не умение NTFS эффективно работать с тысячами файлов в одной директории.

1CUnlimited Oct 5 2023 at 15:24

Хочу обратить внимание, что в обоих статьях, на которые Вы ссылаетесь, PostgreSQL запускался под Windows.

Синтетический тест в Postgres как предчувствие. Вычисляем процент импортозамещения в режиме Highload от 1С / Хабр (habr.com) я запускал и на Unix на кластере с похожей конфигурацией (все на двухпроцессорных серверах и серверных SSD) .

Если смотреть на что тратится время то и там и там отчет показывает примерно одинаково

Вот например эта Как эффективно настроить autovacuum в Postgres для 1С / Хабр (habr.com)

гонялась c Postgres на Unix

Поэтому проблемы Analyze и Fasttruncate для меня одинаковы для этих ОС

ptr128 Oct 5 2023 at 16:05

Пересмотрел первую статью и опять не нашел данных, полученных под Linux. Тем более с правильными настройками (хотя бы huge pages).

Во второй статье речь вообще о VACUUM, что совсем иная тема. С одной стороны, при правильной архитектуре БД (версионность таблиц, когда старые записи не модифицируются и не удаляются, за исключением переноса их в архив) и приложения (когда данные агрегируются OLAP методами - columnstore или pipeline) VACUUM только в плюс, так как снижает нагрузку на WAL, по сравнению с MS SQL или Oracle. С другой стороны, если приложение уже написано так, что выполняет DELETE и UPDATE, особенно ключевых полей, на каждый чих - это действительно деградация производительности, решение которой есть пока только в не принятых в мейнстрим патчах.

Да, это боль для 1С, которая, чуть ли не единственная из известных мне ERP, позволяет модифицировать и удалять уже учтенные документы (операции). И где ввод операций в закрытый период возможен не только через труп финдиректора )

1CUnlimited Oct 5 2023 at 19:19

Во второй статье речь вообще о VACUUM, что совсем иная тема.

Как эффективно настроить autovacuum в Postgres для 1С / Хабр (habr.com) там просто гонял 1С на Linux . Настройки типа huge page не смотрел, Oracle linux с какой то default configuration. Если там есть тюнинг для Postgres - поставлю посмотрю. Есть проверенная статья по этому поводу?

ptr128 Oct 5 2023 at 19:42

В Oracle Linux Server как раз для PostgreSQL версий старше 9.3 ничего, кроме HugePages, настраивать и не требуется, в отличии от той же Ubuntu или просто Oracle Linux (desktop). По крайней мере в случае, когда кроме PostgreSQL на сервере больше ничего нет.

О настройке HugePages можно почитать тут: https://oracle-base.com/articles/linux/configuring-huge-pages-for-oracle-on-linux-64
И тут уже касательно именно PostgreSQL: https://postgrespro.ru/docs/postgresql/16/kernel-resources

CrushBy Oct 5 2023 at 17:06

Analyze это очень проблематичная вещь. Вот например 1С при каждой записи набора ее вызывает (не важно там 10 записей или 1000) и в результате имеем 30% расхода производительности на этот оператор

В lsFusion тоже при каждом записи набора вызывается ANALYZE. И скрины с perf там есть. И там никак не 30%. Возможно разница в способе замеров (perf vs postgresql), или 1С реально использует ну СЛИШКОМ много временных таблиц (что вполне возможно).

Т.е. ее получается нужно вызвать в зависимости от количества записей? Чтобы на маленьких Full scan а на больших уже по статистике

Теоретически можно смотреть сколько записей было до truncate, и сколько стало после и не вызывать ANALYZE. Но в ANALYZE не только количество записей анализируется, но и сами данные (например, сколько разновидностей в колонках). Просто не вызывать ANALYZE на маленьких нельзя, так как если до этого в этой таблице было много записей, то PostgreSQL будет думать, что там много записей. А если таблицы не было, то вообще может считать, что 0 записей - что еще хуже. Так что просто так избавится не получится.

Почему Вы уверены, что менеджер RAM диска (процесс или что там управляет Ram диском) переварит конкурентную запись с многих потоков и не повиснет просто на одном ядре под 100%, даже если остальные ядра свободны?

Опытным путем. Я включил RAM-диски на нескольких клиентах с 1-2К одновременных пользователей (и столько же процессов postgresql на сервере). Никаких проблем с производительностью или блокировками не было. И опять же, непонятно откуда они должны возникнуть, ведь фактически просто вместо обращения к ext4 идет обращение к tmpfs (а напомню, что в linux'е куча чего построено на tmpfs, которое гораздо более критично к параллелизму).

Но опять же, у меня нет вообще никакого опыта работы PostgreSQL на Windows (у нас все сервера на CentOS и Debian). Возможно в Windows все по-другому. Но, если честно, я совершенно не вижу никакого смысла в PostgreSQL на Windows (PostgreSQL во многом проектировался под Linux).

1CUnlimited Oct 5 2023 at 19:15

И там никак не 30%. Возможно разница в способе замеров (perf vs postgresql), или 1С реально использует ну СЛИШКОМ много временных таблиц (что вполне возможно).

У 1С все просто, для каждого набора записываемых записей (N штук) она сначала создает нужные временные таблицы, потом заполняет и делает Analyze , а после использования Drop

Код этого естественно генерируется платформой автоматом, а не разработчиком 1С

ptr128 Nov 15 2023 at 13:24

бывает выгоднее всего сначала записать ключи объектов во временную таблицу, а затем уже использовать ее для расчета конкретных значений при помощи JOIN

Описываемый сценарий подразумевает полный скан временной таблицы и присоединение к ней постоянных таблиц уже по их индексам. Но тоже самое можно реализовать через CTE

WITH PreCalc AS MATERIALIZED (
  SELECT ... ),
FirstStage AS (
  INSERT INTO ...
  FROM PreCalc P
  JOIN ...
  RETURNING ...),
SecondStage AS (
  UPDATE ...
  FROM PreCalc P
  WHERE ...
  RETURNING ...)
INSERT INTO ...
FROM PreCalc P
JOIN ... ;

может привести к повторению одних и тех же вычислений

Заодно решается и эта проблема, так результаты уже произведенных вычислений могут использоваться в последующих запросах.

Что помешало воспользоваться этим методом?

danolivo May 2 at 08:25

Правильно ли я понял, что DDL над временной таблицей - это только TRUNCATE? Судя по флеймграфу, это не относится к изменению структуры/констрейнтов на таблице.

Также:

при необходимости посчитать какой-то показатель с учетом изменений, можно сделать SELECT SUM(COALESCE(<основная таблица>.field, <временная таблица>.field) … FROM <основная таблица> FULL JOIN <временная таблица> ON … GROUP BY …

А можно совсем конкретный пример для понимания?

Также, вопрос выше (https://habr.com/ru/companies/lsfusion/articles/754476/comments/) выглядит прям как основной резон реализовывать хранение промежуточных данных на клиенте. Ведь пользователь рассчитывает, что надежность его изменений == стабильность работы его компьютера, а не сети, на которую он повлиять не в силах. Стабильность сетевого соединения - так себе довод, если только вы не обеспечиваете сохранение сессии за пулером и переподключение к ней же, если сеть мигнула. Или вы таки используете такие трюки?

CrushBy May 5 at 09:52

Правильно ли я понял, что DDL над временной таблицей - это только TRUNCATE? Судя по флеймграфу, это не относится к изменению структуры/констрейнтов на таблице.

Не совсем. Да, TRUNCATE будет чаще всего происходить, но часто и CREATE / DROP. Временные таблицы то относятся к конкретному подключению. Есть пул подключений, который используется для разных целей. Учитывая, что изменения, сделанные пользователем на форме, хранятся во времянках, то они часто надолго "прилипают" к пользователям, как только он начала изменять что-то. Соответственно, временные таблицы тоже. Временные таблицы внутри соединения тоже фактически пулятся (в зависимости от того, сколько ключей нужно и какого типа эти ключи). Соответственно, время от времени создаются новые и удаляются старые.

А можно совсем конкретный пример для понимания?

Давайте приведу пример немного вырожденный, но зато простой. Предположим у Вас список (таблица) из 10.000 объектов (записей). И Вам нужно показать ее пользователю на экран, где он может листать ее, добавлять/удалять объекты и вводить числовое поле (фактически такой большой Excel). И Вам нужно показывать пользователю, например, максимум по этому числовому полю.

Есть два варианта, как это сделать.

Первый вариант, как обычно делают большинство (ORM-подход). Вы считываете эти 10К на клиента (а чаще всего на сервер приложений, допустим работающий на Java), и там через for считаете сумму. Соответственно, при изменениях пользователем значений Вы, не трогая PostgreSQL, меняете в памяти значения и рассчитываете заново.

Второй вариант (как делает lsFusion) - это вы создаете временную таблицу на сервере, куда записываете только ключи и значения, которые пользователь изменил. А затем сумму считаете через SELECT MAX(COALESCE(temp.numeric_field,table.numeric_field)) FROM table FULL JOIN temp ON...

Вот недостатки первого подхода :

Вам постоянно на время работы пользователя нужно хранить все 10К записей в памяти (в lsFusion пользователю будет показываться только "видимое" окно через LIMIT), что забивает память. При сохранении вам нужно будет опять же все эти изменения загнать назад в базу через INSERT/UPDATE/DELETE, при этом нужно отслеживать, что изменилось в этих 10К, а что нет (ORM это умеют, но это опять же допрасходы).
Дополнительней перегруз по CPU/сети, чтобы гонять это все туда/назад между базой и сервером приложений.
Вы не будете видеть "параллельных" изменений этой таблицы на сервере. То есть, если кто-то туда записал, то Вы видите копию своих 10К, и узнаете что что-то не так только при сохранении.
И самый главный недостаток. Если Вам нужно посчитать максимум по этим 10К без учета изменений, то понятно что Вы сделаете SELECT MAX. Но при этом у вас будет код и на Java, где Вы через for будете считать эту сумму. То есть одна и та же логика вычисления суммы будет в 2х местах (в виде запроса и в виде for'а). Это называется семантический разрыв и создает проблемы уже в логике / разработке.

Да, у второго подхода есть тоже недостатки, а именно более высокое количество запросов к PostgreSQL и плохая масштабируемость. Но накладные расходы на первые 2 проблемы выше могут быть еще больше, чем допнагрузка на PostgreSQL (учитывая, что не нужно гонять туда-сюда 10К.).

Что касается потери связи, то редко кто хранит изменения/логику прямо на клиенте (в браузере). Иначе тогда еще придется дополнительно проверять, что кто-то вам в браузере не подменил/пересчитал то, чего не надо. Как в примере, выше вы же не будете доверять расчет максимума клиенту, а потом доверительно писать его в базу, если там вам его надо хранить. Но при этом lsFusion умеет в обрыв связи. Можете сами подключиться на демку : https://demo.lsfusion.org/mycompany-ru , зайти куда-нибудь, даже что-то поменять, потом выдернуть шнур и через секунд 30 вернуть назад.

danolivo May 5 at 11:31

Спасибо.

Судя по описанию, здесь скорее требуется не временная таблица, а переменная-отношение (в терминах C.J. Date) с некоторой спецификой физического хранения / индексирования.