Да, интеграций действительно много. В целом такие случаи решаются контрактами и их автоматической проверкой. Сейчас мы как раз реализуем Data Contracts — тоже на базе open-source-решения. Когда всё заработает, надеюсь, расскажем подробнее, что получилось.
Dagster мы не рассматривали, потому что в Островке уже используется Airflow, за поддержку и развитие которого отвечает отдельная команда. Поэтому логично было остаться в рамках стандартного для компании инструмента — это упрощает поддержку и снижает операционные издержки.
Great Expectations действительно был одним из кандидатов. Перед выбором стека я провёл сравнительный анализ по нескольким критериям: — поддержка подключения к нашим базам данных; — возможность описывать проверки в SQL; — автогенерация тестов на основе профилирования данных; — простота внедрения и поддержки; — наличие инструментов для отчётности.
GX набрал хорошие баллы, и я знаком с этим инструментом и его сообществом, но на практике столкнулся с ограничениями при подключении к нашей аналитической БД. Кроме того, Soda реализует более простую и гибкую поддержку SQL-нативных тестов — можно не только описывать классические проверки в формате failed rows, но и реализовывать другие типы проверок.
Это точно. у меня даже картинка на эту тему есть
Да, интеграций действительно много. В целом такие случаи решаются контрактами и их автоматической проверкой. Сейчас мы как раз реализуем Data Contracts — тоже на базе open-source-решения. Когда всё заработает, надеюсь, расскажем подробнее, что получилось.
Привет! Спасибо за вопрос.
Отвечу по частям.
Dagster мы не рассматривали, потому что в Островке уже используется Airflow, за поддержку и развитие которого отвечает отдельная команда. Поэтому логично было остаться в рамках стандартного для компании инструмента — это упрощает поддержку и снижает операционные издержки.
Great Expectations действительно был одним из кандидатов. Перед выбором стека я провёл сравнительный анализ по нескольким критериям:
— поддержка подключения к нашим базам данных;
— возможность описывать проверки в SQL;
— автогенерация тестов на основе профилирования данных;
— простота внедрения и поддержки;
— наличие инструментов для отчётности.
GX набрал хорошие баллы, и я знаком с этим инструментом и его сообществом, но на практике столкнулся с ограничениями при подключении к нашей аналитической БД. Кроме того, Soda реализует более простую и гибкую поддержку SQL-нативных тестов — можно не только описывать классические проверки в формате failed rows, но и реализовывать другие типы проверок.
В итоге, я выбрал Soda