Комментарии 3
Может не совсем правильно понял назначение DataHub, но гистограммы (Histograms), встроенные в Oracle и собираемые по расписанию или по запросу, дадут такую же статистику по распределению данных. Для каждого столбца каждой нужной таблицы. И всё это внутри самой системы, не вынося ничего во внешние структуры / приложения, не мучаясь с установкой Оракловского клиент и языков программирования.
DataHub - это по сути дата каталог (хранилище метаданных), в котором помимо профилирования есть возможности lineage, валидации данных и так далее.
Добрый день! Действительно, внутренние инструменты Oracle могут закрыть основной функционал DataHub в плане сбора статистики. Однако, DataHub может собирать аналогичную статистику для большинства БД помимо Oracle (например, PostgreSQL, MySQL и т.д.) и хранить в все источники в одном пространстве. Также DataHub очень удобен, если таблиц профилирования очень много и от их количества не увеличивается сложность написания yml-файла – не нужно писать каждую таблицу, достаточно указать схему или regex-выражение, по которому он будет профилировать.
Профилирование данных из СУБД Oracle с помощью DataHub и Great Expectations. Часть 1