Comments / Profile of ptr128 / Habr

Вадим Петряев@ptr128

Архитектор ИС

0,9

Rating

Subscribers

ProfileArticles18PostsNews1Comments4.7K

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 22 2021 at 08:12

Вы действительно думаете, что создание XML, его передача по сети, парсинг, INSERT INTO, да еще и в цикле по слайсам, может оказаться быстрее, чем bcp/BULK INSERT?
Простите, но у меня есть все основания считать, что Вы заблуждаетесь.
При этом, Вы имеете полное право опубликовать здесь код Вашего решения, сравнить время выполнения Вашего и моего кода и разбить меня в пух и прах.

Если же Вы предлагаете менее производительное, но универсальное решение, то, простите, первый код в статье справляется с задачей намного более универсальным путем, чем Ваш. Только медленно. И статья вовсе не об универсальности, а о достижении максимальной производительности.

mssql умеет в gzip

Даже если на стороне PostgreSQL сжать в GZIP xml длиной больше 4ГБ (а это можно сделать), то как Вы его на стороне MS SQL распакуете, если DECOMPRESS() возвращает varbinary(max), длина которого лимитирована 2ГБ?

Вы нервно стоите на красный, хотя машин нет. Как сделать светофор умнее, а проезжать и загруженные перекрестки быстрее?

ptr128 Apr 22 2021 at 05:58

Просто Вы уже дважды в комментариях призывали голосовать за свою статью, открыто нарушая этикет Хабра. А в этом сообщении еще и на личности перешли. Предположим, что Gordon01 неправ, первым перешел на личности и начал раздувать флейм в комментариях. Но это не повод тоже переходить на личности. Он тут просто гость с отрицательной кармой. А Вы все же автор статьи.

Без обид только пожалуйста. Я описал исключительно свое субъективное восприятие ситуации. Никого не обвиняю.

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 22 2021 at 02:02

Один раз внутри bcp — неизбежность. Но зачем лишний раз гонять их на веб-сервер?
У нас три хоста: веб-сервер, MS SQL сервер и PostgreSQL сервер. Инициатор операции веб-сервер.
В моем примере, веб-сервер общатеся только с MS SQL. Код опубликован в статье.
Что же происходит в Вашем примере я не пойму, а код Вы не предоставляете.

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 22 2021 at 01:56

То, что INSERT на удаленный сервер всегда медленнный. INSERT… SELECT на удаленный сервер не передать, а INSERT… VALUES ограничен по количеству вставляемых строк.
Иными словами, вставку строк через FDW или Linked Server лучше избегать. А если уж приперло — инкапсулировать данные в JSON/XML и вливать их по RPC.

Вам не нужен end-to-end? Борьба с шифрованием в западном мире набирает обороты

ptr128 Apr 21 2021 at 19:51

Вряд ли. Не та целевая аудитория. Вот когда начнут сериалы снимать о том, как доблестная полиция чудом успела спасти ребенка от педофила или предотвратить теракт только благодаря тому, что удалось расшифровать переписку — это будет обозначать подготовку.

Борьба с end-to-end шифрованием продолжается

ptr128 Apr 21 2021 at 19:10

Тут срабатывает лавинный эффект. Достаточно незначительному количеству людей принципиально использовать только защищенные методы связи, желающие связаться с ними станут тоже переходить на эти методы.
Так же свободная лицензия и наличие поддержки защищенного стандарта SIP позволяет легко интегрировать тот же Jami с корпоративными средствами связи. С CommuniGate Pro и Asterisk Jami отлично дружит.

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 21 2021 at 18:56

Как Вы представляете организацию его доступа к ramfs на Linux хосте и раздачу прав на этот файл для него?

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 21 2021 at 16:53

Не понимаю.
Вы что, предлагаете вместо использования ramfs, как у меня, дважды гонять эти несколько гигабайт по сети? Или наоборот, из C# на IIS по SSH ходить на сервер, где хостится PostgreSQL под выделенным для этих целей аккаунтом? В чем тогда профит и как управлять правами?

Приведите все же полностью код решения, чтобы можно было запустить его и убедиться, что Ваш вариант более производительный. Прямо по пунктам:

Создание глобальной временной таблицы
Загрузка данных в нее
Вызов обработчика загруженных данных

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 21 2021 at 15:48

Мне жаль, что я не сумел донести до всех читателей, что статья не об открытии, а о самом производительном способе решения вполне типовой задачи.

А как обойтись без Linked Server я не понял. Кто «все эти команды» запустит при нажатии кнопки в вебформе, кто создаст в этом случае глобальную временную таблицу и как он узнает, что таблица уже заполнена?
Можно без словесных описаний. Просто приведите пример кода, выполняющего ровно ту же задачу, как у меня.

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 21 2021 at 10:21

Есть проприетарный драйвер от DevArt. Однако, кроме стоимости, есть два «но».
Во-первых, у меня сейчас нет достаточно мощного сервера, чтобы с этим драйвером поиграться.
Во-вторых, не нравится мне сочетание Open Source с проприетарным blob. В любой момент это может вылезти боком. Например, захочу на PostgreSQL 13 перейти на зоне разработки, а он его до сих пор не поддерживает.

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 21 2021 at 09:56

Попробуйте сами. Рухнет. Предполагаю, что он не ограничивается последовательным чтением и вызывает seek() на входной файл.

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 21 2021 at 09:47

быстрее linked server в сотни раз.

А это уже странно. Если не пытаться тянуть из Linked Server данные запросом напрямую, что явно не рекомендуется, а использовать RPC (EXEC (...) AT ...), как в моем первом примере, то выигрыш меньше 20% (12328 ms против 14793 ms).

что у вас DSN=pg_sql_server?

ODBC PostgreSQL Unicode(x64) 12.02.00.00

BCP всегда все обгоняет

Не совсем. Все же данные, вместо того чтобы напрямую попасть с сервера на сервер еще приходится сначала преобразовать в текстовый вид, затем записать в файл (пусть даже и на ramfs), запустить BCP, прочитать из файла и распарсить.

С обычными постоянными таблицами то все понятно. Но в случае временных или нелогируемых таблиц — все вовсе не однозначно.

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 21 2021 at 08:38

Так тоже пробовал. Те же яйца, но вид сбоку:

SET STATISTICS TIME ON
DECLARE
  @sql_str nvarchar(max)

DROP TABLE IF EXISTS #t
CREATE TABLE #t (
  N int,
  T datetime
)

SELECT @sql_str='
  SELECT N, T
  FROM generate_series(1,1000,1) N
  CROSS JOIN generate_series($$2020-01-01$$::timestamp,
    $$2020-12-31$$::timestamp,$$1 day$$::interval) T'

SELECT @sql_str='
  INSERT #t (N, T)
  SELECT N, T
  FROM OPENROWSET(''MSDASQL'', ''DSN=pg_sql_server'', '''
    +@sql_str+''') AS O'
EXEC (@sql_str)

SQL Server Execution Times:
CPU time = 5500 ms, elapsed time = 12328 ms.

Это против 881 ms через BCP выше.

ptr128 Apr 21 2021 at 08:01

Не утрируйте. Автомобиль есть в двух третях домовладений РФ. Если вычесть одиноких пенсионеров, алкоголиков и студенческие семьи, то получится, что личного автомобиля нет только у того, кто сам этого не хочет.

Вы уж простите, но сейчас даже таджики-гастарбайтеры себе автохлам покупают, варят, капиталят и на нём ездят.

Как ускорить код на Python в тысячу раз

ptr128 Apr 21 2021 at 07:07

А 9мс или 90мс будет выполняться код — не так важно

Зависит от того, сколько раз этот код вызывается для получения конечного результата. Если миллионы раз — очень важно.

ptr128 Apr 21 2021 at 06:56

С каких пор ARIMA перестала быть самообучающейся? Это одна из самых распостраненных моделей ML.

Я как раз наоборот, уже давно говорю именно о динамике, прогнозировании потока ТС и работе светофора на упреждение.
А Вы до сих пор не предоставили график кроссвалидации точности прогнозирования используемой нейросети хотя бы за час работы светофора.

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 21 2021 at 05:51

Точно не быстрее, а медленней. Можете убедиться сами.

Во-первых, я уверен, что время формирования и парсинга XML всегда будет дольше времени формирования и парсинга текстового формата BCP. Хотя бы потому, что первый всегда больше второго.
Во-вторых, я уверен, что INSERT INTO всегда работает медленней, чем BULK INSERT
В-третьих, я уверен, что XML в БД не может быть больше 4ГБ ни при каких условиях. Что приводит и к усложнению кода, и к потере производительности.
В-четвертых, если уж таким путем идти, то JSON явно меньше размером., чем XML. Именно поэтому, если у меня есть гарантии, что объем JSON получится меньше гигабайта — его и использую. Но в рассматриваемой в статье ситуации объем точно может превышать 4 ГБ.

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 21 2021 at 05:40

В обратном порядке, через TDS_FDW проблем с производительностью не возникает, поэтому подобные извращения не требуются.

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 21 2021 at 05:37

Во-первых, я не понял, с каких пор Bucardo стал поддерживать репликацию между MS SQL и PostgreSQL. Можете ссылочку дать?
Во-вторых, не понял смысл хранимки. BULK INSERT может быть только из файла. А остальные варианты вставки строк в MS SQL всегда медленней, чем BULK INSERT.

Как быстрее всего передавать данные с PostgreSQL на MS SQL

ptr128 Apr 21 2021 at 05:31

Я не просто так написал, что «bcp не умеет читать данные со стандартного ввода».
Можете погуглить. Это неоднократно обсуждалось.

1 2 ...

226 227

228

229 230 ...

236 237