Pull to refresh

Comments 9

На дворе конец 2023 года, а у нас в избе одни валенки на двоих. Ой, извините, в интернетах до сих пор статьи в тему ETL/ELT :)

Тема была актуальна лет 7 назад. Вот уже несколько лет ни на одном реальном проекте не видел чтобы эту тему вообще как то затрагивали. Все просто делают "как надо" нее думая, что это ETL или ELT. Да и вообще в свете современных технологий граница между ними стирается.

Сейчас это скорее некий теоретический концеп, не имеющий прикладной ценности. Так же как CAP-теорема. Знать конечно надо. Но ценности практической почти никакой. Ну если только надо найти академический аргумент при дискуссии с каким нибудь занудливым оппонентом)

создания значимых моделей данных для поддержки принятия решений, я бы порекомендовал следующую статью.

Хотел бы почитать эту статью, но у вас кажется ссылка пропала

Я, честно говоря, вообще подумал, что статья написана ChatGPT - настолько пустым мне показалось обсуждение этого вопроса

Вероятно на вашем уровне компетенций эта статья может показаться пустой. Ну что ж, пусть так. Но в ней мы просто даем базу для новичков в преобразовании данных.

Прекрасно, что вы настолько осведомлены и разбираетесь в вопросе, что наша абсолютно базовая статья показалась вам неактуальной. Однако, все ещё есть люди, которые не настолько разобрались в преобразовании данных. Как раз для них мы и опубликовали этот текст.

Согласен с тем, что тема скорее академическая, чем практическая. Более того - ETL или ELT система перед вами, вопрос даже совершенно относительный. Одну и ту же систему можно рассмотреть и так, и так. Простой пример. Загружаем данные из БД в Spark, используя sparksql, затем трансформируем их в нем же, получив результирующий dataset. То, что скрывается под капотом метода load() в этом случае одновременно является последовательностью шагов extract и load. Дальше Spark выполняет ваш transform. Вроде бы ELT? Но это если мы используем датасет здесь же, на сервере Spark. А теперь давайте ту же конструкцию дополним загрузкой вашего результирующего dataset в какую-то другую БД, например, для работы с ней аналитиков. Налицо другая схема - первые два этапа теперь для вас - это некоторый единый extract для Spark сервера, затем идет transform, и затем load в OLAP систему. Получаем уже ETL. Базовое приложение не изменилось, но является оно ELT или ETL - не зашито в самом приложении, а зависит от архитектурного контекста приложения, то есть - где именно приложение используется. То же самое приложение вы можете скопипастить в другой контекст, и оно кардинально меняет свое функциональное назначение.

Использую преобразование данных при непосредственной записи в бд,. То есть ELT вроде. Прибор выдает аналоговый сигнал и его нужно измерить и преобразовать в приведенную погрешность и записать. Так проще для мониторинга и анализа он лайн всего длительного процесса . Все делается в хранимой процедуре записи данных на сервере для большого пула таких приборов. Далее данные поступают в отчёты и преобразование в отчётах сделать сложно. А так все упрощается.

шаг извлечения данных следует за шагом трансформации

Может все же наоборот?

ELT, что означает Извлечение-Загрузка-Трансформация, относится к процессу, где шаг извлечения следует за шагом загрузки

Как запутать себя и других.

Sign up to leave a comment.