Pull to refresh

Comments 13

Спасибо, полезный обзор. Было бы интересно больше подробностей по каждому продукту. Графический интерфейс, архитектура итоговых решений и т. п.

можно скачать исследование с сайта - там очень много страниц и все вышеперечисленное есть (исследование бесплатное)

Прямая ссылка бы очень помогла. На сайте есть форма "Заказать отчёт" -- это оно?

точно! тут прямые ссылки не одобряются, но сайт называется russianbi :)

Есть еще такая тема - репликация. ETL можно считать подмножеством репликации поскольку начальная загрузка целевого хранилища функционально состоит из шагов ETL.

Но репликация это гораздо шире и эффективнее. В самом деле классическая схема ETL это каждый раз удаление ранее загруженных данных. Это не есть экономично. Не всегда уж прямо все данные изменились.

Репликация позволяет делать инкрементальные обновления целевого хранилища накоплеными за некоторое время изменениями. И, в пределе, репликация позволяет делать изменения в сомент их появления на исходном хранилище.

Мне довелось рабоать с двуми имплементациями реплиции: IBM InfoSphere Data Replication и Oracle Golden Gate. В компании где я работаю "победил" первый. Он и является на данный момент предметом моей трудовой деятельности.

Вот ссылка на исчерпывающий докуиент по IIDR:

https://www.ibm.com/docs/en/idr/11.4.0?topic=change-data-capture-cdc-replication

Во первых строках этого документа говорится:

IBM® IBM Data Replication - CDC Replication is a replication solution that captures database changes as they happen and delivers them to target databases, message queues, or an ETL solution such as IBM DataStage® based on table mappings configured in the IBM Data Replication Management Console GUI application.

И приводится вот такая вот картинка:

У ETL есть SCD для инкремента. IBM специалист любит софт от IBM). Есть Oracle Data Integrator, он тоже CDC поддерживает, Ну и на крайняк Apache NIFI с Informatica.

У какого/чьего ETL? ETL это всего лишь Extract Transform Load. Это может быть банальное Copy, Unload Load, Unload FTP Load, Unload Transform FTP Load. Это может быть ручной процесс, а может быть автоматизированный.

Все CDC продукт в своем подмножестве функциалов содержат ETL.

Я в ИТ более 40 лет и работал с очень разным софтом, на разных платформах.

Я люблю хороший софт. Софт от ИБМ как правило хороший.

Софт от Оракл плохой по сравнению с ИБМ. Когда у нас делался переход с DB2 for z/OS на Oracle for Linux при наличии уже развернутого IBM IDR (используемого для репликации DB2 for z/OS в MS SQL) "нашими умниками" был выбран Oracle Golden Gate.

Я заряжал Oracle Golden Gate на стороне МФ. После продолжительных барахтаний "наши умники" решили таки переключиться на IBM IDR. Проект перехода был выполнен с IBM IDR и в настоящее время IBM IDR используется для репликации Oracle в MS SQL.

Кстати говорят что ИБМ как раз Informftica взял за основу своего IDR. И унас до IDR использовалась Informatica. А до Informatica использовался Oracle. C Oracle на МФ я работал в начале нулевых. С Informatica лишь вскользь, как запасной игрок, но помню что это был очень трудоёмкий продукт для работы с ним. IDR в этом смысле просто сказка.

На днях собираюсь делать апгрэйд IDR на текущую версию. Почти два года мы прработал без апгрэйдов и без проблем. Точнее проблемы были, но это были проблемы Source Database сиречь Oracle. Для этих проблем были использованы имеющиеся в IDR костыли - Conflict Resolution. Эти костыли конечно есть во всех CDC продуктвх. Но что интересно для DB2 for z/OS они ни разу не были востребованы.

Вот такие дела. Кроме IDR у ИБМ есть DataStage это ближе к чистому ETL. IDR и DataStage могут работать в паре.

На любые вопросу по IDR отвечу с удовольствием. Имею доступ к ИБМ саппорту IDR и одно время очень плотно его использовать приходилось. Это очень великолепный саппорт, на уровне саппорта ИБМ для МФ, который в свою очередь можно охарактеризовать как НЕПРЕВЗОЙДЕННЫЙ ни кем.

спасибо за профессиональное мнение и предложения по улучшению - будем стараться их применить!

Пожалуйста. Если нужна помощь готов оказать по мере возможности и сил. Возможности по IDR у меня безграничны.

Nexibn osa как раз умеет работать с репликами. Мы как раз ремонтируем данный из постгри

Много что может уметь. Вопрос как. По "Nexibn" ничего на гугле не нашел. Гугл предлагает Nexon.

P.S.

IDR имеет replication engine for PostgreSQL:

The CDC Replication Engine for PostgreSQL provides full replication capability for PostgreSQL. The engine interacts through a standard JDBC interface by using a product-supplied Logical Replication API and database default plug-in test_decoding to obtain PostgreSQL log data.

Note: The CDC Replication Engine for PostgreSQL also supports replication to the CockroachDb database. However, it is only supported as a target.

Хм, из заголовка ожидал увидеть в статье хотя бы перечень ETL-инструментов.

можно скачать исследование с сайта - там очень много страниц, есть все продукты ETL (часть есть на картинке), исследование бесплатное

Sign up to leave a comment.

Articles