Как стать автором
Поиск
Написать публикацию
Обновить

Database, Data Warehouse и Data Lake: что это и когда следует использовать каждое?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров20K
Всего голосов 9: ↑7 и ↓2+5
Комментарии6

Комментарии 6

И почему базы данных связаны именно с монолитом? Микросервисы не могут использовать базы данных?)

У каждого микросервиса своя база данных, а DWH их позволяет их все вместе одним SQL запросом читать для аналитики

Чаво? Зачем каждому микросервису своя бд? Почему бы просто не использовать спарк и одну дб?

ты путаешь OLTP бд микросервисов и OLAP бд для аналитики. Первых могут быть тыщщи, вторая одна (хотя на самом деле не одна) собирающая всё вместе

Data Lake — подход к архитектуре, в котором создается промежуточное хранилище, куда сваливаются сырые данные из всех источников. Внутри этого хранилища они обрабатываются, агрегируются, декомпозируются, композируются, нормализуются и улетают в базу данных. Данные собираются со всех источников, потом складываются в Data Lake. Далее они преобразуются и отправляются в основное хранилище, где все это хранится в красивом виде, без лишней информации. В то же время, учитывая, что сохраняется копия данных, всегда можно к ним вернуться. Если трансформация получилась плохой, есть данные из источника, к которым можно сходить, и еще раз пересобрать.

А чем, собственно, тогда Data Lake отличается от старого-доброго "промежуточного слоя" (Staging Area)?

новое слово - новые бюджеты

Зарегистрируйтесь на Хабре, чтобы оставить комментарий