Как стать автором
Обновить

Комментарии 9

Проводили сравнение Atlas vs DataHub. Последний показался более функциональным, приятным и менее глючным.

НЛО прилетело и опубликовало эту надпись здесь

На счет приятный и менее глючный не могу точно сказать.

Но вот то что атлас прибит к хадупу это да.

А у датахаба как раз отдельное самодостаточное решение - https://github.com/datahub-project/datahub

Да, максимально органично Atlas встраивается в Hadoop экосистему и присутствует в составе дистрибутивов от ArenaData, Cloudera и HortonWorks.

Но про прибитось Atlas к Hadoop не соглашусь. Для работы из экосистемы Hadoop Atlas нужны только HBase и Solr, которые при необходимости могут быть запущены встроено совместно с Atlas (режим embedded).

Автоматизировать захват метаданных из любых компонентов своей инфраструктуры (написать свой процесс) и далее наполнять ими Atlas - задача не требующая больших вложений.

Спасибо за мнение. Было бы интересно посмотреть на ваш подход к сравнению и результаты. По функциональности из коробки, да, DataHub кажется выигрывает.

У меня нет полноценно практического опыта использования DataHub. 

Изучая документацию и доступное демо, сложилось следующее сугубо личное мнение:

            + Владение данными, профиль пользователя (статистика)

            + Вроде есть базовый функционал по профилированию данных и простенькие отчеты по статистике использования. Не до конца понял где доступно (для каких интеграций) и как работает.

            + Развитое документирование карточки метаданных - есть отдельная вкладка для описания с разметкой текста.           

            + Большой спектр доступных интеграций, PULL и PUSH механизмы наполнения каталога данными.

            - При этом интерфейс кажется перегружен и вызывает эстетическую неприязнь.

            - Нет Data Lineage до столбцов (есть где-то roadmap). Не понравилось как отображается Data Lineage - каждый уровень нужно принудительно раскрывать, а в текстовом списке доступны не все уровни зависимости в части Lineage (Impact доступен)

            - Не до конца понятно, возможно ли кастомизировать модели метаданных, на сколько возможно (сложно) кастомизировать процессы вытягивания метаданных (интеграции)

            - Архитектура показалась усложненной, стек примененных технологий - обширный. Похоже на наследие внутренней корпоративной кухни LinkedIn где продукт рождался. Задача "доработать под себя" может оказаться крайне затруднительной.

Атлас выглядит очень тяжеловесно, кажется чтобы он был полезен нужен человек на фултайм. Правда ли это? Сколько у вас человек используют и сколько поддерживают?

PS есть ещё openmetadata, попроще но разрабатывается довольно активно

Про тяжеловесность - скорее ложное впечатление. 

Основные вложения как технических специалистов так и аналитиков / методологов будут на этапе проектирования (какую модель данных для себя выбрать, в какие процессы и как именно встроить работу с инструментом) и внедрения решения. 

На этапе поддержки и сопровождения потребуется минимум затрат технических специалистов - я бы оценил до 20% FTE. 

Хорошо продуманный, внедренный и контролируемый процесс работы с Atlas гарантирует, что работа аналитиков/ методологов и дата стюардов будет сопоставима с трудоазтартами при работе с другими инструментами документирования (WORD, EXCEL, WIKI, GIT, jupiter notebook и пр).

OpenMatadata - многообещающий и интересный по архитектуре и функционалу продукт. Сам к нему присматриваюсь и планирую в ближайшие недели пилотировать. 

Что привлекает:

  • Архитектура кажется проще (в том числе технологически) в сравнение с DataHub

  • Встроенные профилирование и DQ (простенький)

  • Версионирование метаданных (!)

  • Data Lineage до столбцов (появится летом в релизе 0.11)

  • Открытые JSON модели метаданных - близко по духу к ATLAS и задел на гибкость

  • PULL/PUSH наполнение метаданных. Развитый REST API

  • Плотная интеграция с DBT, вплоть до вывода исполняемого кода в интерфейс. В современных платформах данных DBT встречается все чаще как инструмент трансформации данных.

  • Разметка текста - базовая, но в Atlas даже такого нет.

  • Социальные функции - владельцы данных, комментирование, упоминания, доска актваности etc

  • Зачатки системы нотификации об изменениях - webhook, к которому можно приладить свое приложение для красивой доставки нотификации

Есть конечно подозрение, что часть функционала в варианте из коробки окажется слишком упрощенной, ограниченной, недостаточной для конкретных нужд.

Почему я часто говорю про важность гибкости инструмента к настройке и кастомизации, в том числе подразумевая простоту архитектурного решения, чтобы без капитальных трудозатрат доделать продукт под себя.

В трех больших компаниях так и не смогли никому продать атлас, большой, сложный и неудобный.

ОМД - здоровский, лёгкий и простой. Хорошо заходит для поиска данных в нескольких источниках и разметки данных(gdpr, compl). Если активно используется дбт, то ещё и документацию писать не надо. Вообщем, зашло хорошо. 14 июня на митапе по дбт, наверное, расскажу про связку с ним.

Интеграцию с  DBT тоже для себя в первую очередь отметил и увидел в этом шанс еще больше отказаться от документации =)

OMD появилась сравнительно недавно - первые полноценные устойчивые релизы во второй половине 2021 году.

Потребность в Data Catalog появилась раньше - мы начали внедрять Atlas в 2020

Зарегистрируйтесь на Хабре, чтобы оставить комментарий