Articles / Profile of nrv / Habr

nrv Apr 1 2025 at 07:15

SSDF — велосипед для ETL на SQL

Medium

5 min

697

Data Engineering *

From sandbox

Речь пойдет о моем пет‑проекте — SSDF (super SQL data flow)

Когда‑то я работал в одной компании, у нас было ХД на MSSQL и самописный велосипед для организации ETL/data flow; так и назывался — dataflow.

Выглядел он следующим образом (если описывать вкратце).
Пункт загрузки описывался как одна строка в таблице, основные поля — источник и назначение, например, источник — это view, назначение всегда таблица, ещё давайте упомянем поле горизонта загрузки. Dataflow генерировала и выполняла (для типа view) код удаления из назначения по горизонту и код вставки из вью. Были, конечно, и другие типы — процедура, скрипт, более сложные.

Таблица этих пунктов и являла собой поток данных, и, порядок прописывался жестко, так же был параллелизм (два и более под одним номером n выполняются одновременно).

Главное, что я из этого вынес — что так можно работать и работать вполне неплохо.