Comments 7
Читаю подобные статьи и удивляюсь, такое ощущение, что Кимбал с Инмоном прошли мимо вас. DL - это не хранилище данных, это большая помойка. В ХД данные из разных систем должны быть согласованы между собой, хотя бы перекодированы по справочникам, очищены от мусора, должны быть пригодны для анализа данных как есть без дополнительной обработки и преобразования. А после DL ещё нужно повозиться с данными, что бы получить что то вменяемое.
А мне понравилась статья, чувствуется реальный проект за ней. Нужно читать понимая, что viewpoint автора - со стороны разработчика и тех. директора. Да, есть терминологические ошибки, типа DL - это хранилище, но это не мешает понять мысль.
вы путаете болото данных с data lake. у типичного data lake как минимум 3 слоя - bronze, silver, gold. на gold слое все очищено и перекодировано. у Инмона хорошая брошюра есть как это делать, он там реляционные данные в application pond предлагал грузить.
Термина "болото данных" не существует, т.к. специально его никто не строит, это то, во что превращаются ваши "озера данных" со временем. Об этом Инмон написал статью в 15 году, почему озера данных не хранилища, где при помощи рисунка, для тупых, сравнил мусорный ящик - озеро данных с контейнерами в которых дынные лежат в полном порядке.. Несколько лет назад НЛМК затеял "применить новую парадигму," снести хранилище данных т.к. они не справлялись с его поддержкой и построить вместо него озеро данных, как будто это бы решило их проблему с очисткой данных, а на самом деле они перенесли проблему чуть дальше от источника данных. Вообщем это очередное разводилово.
на периферии может и болота строят, но все серьезные фин организации начиная с мелочевки типа сбера заканчивая крупнейшими американскими банками, все вынесли обработку фин данных в хадупы и облака с S3. крупнейшие банки планеты пока справляются и с очисткой. как это делать, хорошо разложено в брошюре Инмона Designing the Data Lake and Avoiding the Garbage Dump.
прочитай.
Перестаньте называть озера данных хранилищами данных вот и все. С хранилищами данных работают бизнес пользователи с озерами данных дата саинтисты, и назначение у них разное, как и содержание. Это не одно и тоже. А кто там, что строит это не важно, просто пилят деньги на дураках.
Вот вам ссылка м.б. в конце концов разберётесь в отличиях одного от другого.
https://dzen.ru/a/ZKCfgh9jP1v4aMh3
И почти никто из комментаторов не понял сарказма в использовании термина "Дата лейк" в статье
Как интегрировать данные в Хранилище быстро, качественно и дешево