SnezhSh 25 мая 2022 в 18:33

Apache Atlas – доступный data catalog

14 мин

12K

Блог компании GlowByteApache*Hadoop*

Туториал

Комментарии 9

WondeRu 25 мая 2022 в 19:31

Проводили сравнение Atlas vs DataHub. Последний показался более функциональным, приятным и менее глючным.

НЛО прилетело и опубликовало эту надпись здесь

Tim06ka 26 мая 2022 в 11:07

На счет приятный и менее глючный не могу точно сказать.

Но вот то что атлас прибит к хадупу это да.

А у датахаба как раз отдельное самодостаточное решение - https://github.com/datahub-project/datahub

greblov 26 мая 2022 в 12:10

Да, максимально органично Atlas встраивается в Hadoop экосистему и присутствует в составе дистрибутивов от ArenaData, Cloudera и HortonWorks.

Но про прибитось Atlas к Hadoop не соглашусь. Для работы из экосистемы Hadoop Atlas нужны только HBase и Solr, которые при необходимости могут быть запущены встроено совместно с Atlas (режим embedded).

Автоматизировать захват метаданных из любых компонентов своей инфраструктуры (написать свой процесс) и далее наполнять ими Atlas - задача не требующая больших вложений.

greblov 26 мая 2022 в 13:04

Спасибо за мнение. Было бы интересно посмотреть на ваш подход к сравнению и результаты. По функциональности из коробки, да, DataHub кажется выигрывает.

У меня нет полноценно практического опыта использования DataHub.

Изучая документацию и доступное демо, сложилось следующее сугубо личное мнение:

+ Владение данными, профиль пользователя (статистика)

+ Вроде есть базовый функционал по профилированию данных и простенькие отчеты по статистике использования. Не до конца понял где доступно (для каких интеграций) и как работает.

+ Развитое документирование карточки метаданных - есть отдельная вкладка для описания с разметкой текста.

+ Большой спектр доступных интеграций, PULL и PUSH механизмы наполнения каталога данными.

- При этом интерфейс кажется перегружен и вызывает эстетическую неприязнь.

- Нет Data Lineage до столбцов (есть где-то roadmap). Не понравилось как отображается Data Lineage - каждый уровень нужно принудительно раскрывать, а в текстовом списке доступны не все уровни зависимости в части Lineage (Impact доступен)

- Не до конца понятно, возможно ли кастомизировать модели метаданных, на сколько возможно (сложно) кастомизировать процессы вытягивания метаданных (интеграции)

- Архитектура показалась усложненной, стек примененных технологий - обширный. Похоже на наследие внутренней корпоративной кухни LinkedIn где продукт рождался. Задача "доработать под себя" может оказаться крайне затруднительной.

densol92 25 мая 2022 в 20:47

Атлас выглядит очень тяжеловесно, кажется чтобы он был полезен нужен человек на фултайм. Правда ли это? Сколько у вас человек используют и сколько поддерживают?

PS есть ещё openmetadata, попроще но разрабатывается довольно активно

greblov 26 мая 2022 в 13:39

Про тяжеловесность - скорее ложное впечатление.

Основные вложения как технических специалистов так и аналитиков / методологов будут на этапе проектирования (какую модель данных для себя выбрать, в какие процессы и как именно встроить работу с инструментом) и внедрения решения.

На этапе поддержки и сопровождения потребуется минимум затрат технических специалистов - я бы оценил до 20% FTE.

Хорошо продуманный, внедренный и контролируемый процесс работы с Atlas гарантирует, что работа аналитиков/ методологов и дата стюардов будет сопоставима с трудоазтартами при работе с другими инструментами документирования (WORD, EXCEL, WIKI, GIT, jupiter notebook и пр).

OpenMatadata - многообещающий и интересный по архитектуре и функционалу продукт. Сам к нему присматриваюсь и планирую в ближайшие недели пилотировать.

Что привлекает:

Архитектура кажется проще (в том числе технологически) в сравнение с DataHub
Встроенные профилирование и DQ (простенький)
Версионирование метаданных (!)
Data Lineage до столбцов (появится летом в релизе 0.11)
Открытые JSON модели метаданных - близко по духу к ATLAS и задел на гибкость
PULL/PUSH наполнение метаданных. Развитый REST API
Плотная интеграция с DBT, вплоть до вывода исполняемого кода в интерфейс. В современных платформах данных DBT встречается все чаще как инструмент трансформации данных.
Разметка текста - базовая, но в Atlas даже такого нет.
Социальные функции - владельцы данных, комментирование, упоминания, доска актваности etc
Зачатки системы нотификации об изменениях - webhook, к которому можно приладить свое приложение для красивой доставки нотификации

Есть конечно подозрение, что часть функционала в варианте из коробки окажется слишком упрощенной, ограниченной, недостаточной для конкретных нужд.

Почему я часто говорю про важность гибкости инструмента к настройке и кастомизации, в том числе подразумевая простоту архитектурного решения, чтобы без капитальных трудозатрат доделать продукт под себя.

barloc 27 мая 2022 в 12:33

В трех больших компаниях так и не смогли никому продать атлас, большой, сложный и неудобный.

ОМД - здоровский, лёгкий и простой. Хорошо заходит для поиска данных в нескольких источниках и разметки данных(gdpr, compl). Если активно используется дбт, то ещё и документацию писать не надо. Вообщем, зашло хорошо. 14 июня на митапе по дбт, наверное, расскажу про связку с ним.

greblov 27 мая 2022 в 12:40

Интеграцию с DBT тоже для себя в первую очередь отметил и увидел в этом шанс еще больше отказаться от документации =)

OMD появилась сравнительно недавно - первые полноценные устойчивые релизы во второй половине 2021 году.

Потребность в Data Catalog появилась раньше - мы начали внедрять Atlas в 2020

Зарегистрируйтесь на Хабре, чтобы оставить комментарий