Pull to refresh
3
9
Send message

Вопрос на миллион: что с производительностью, каким движком выполняется проверка? Если там под капотом а-ля пандас, то возможно на игрушечных датасетах - норм. А на нагрузке как все это у вас работает? Успевают данные прокачиваться в регламентные окна при этом DQ?

Приветствую! В конце статьи как раз пишу, что мы только планируем провести нагрузочное тестирование в условиях максимально приближенных к продакшену.

Все проверки выполняются движком той базы, на которой они запускаются, поэтому для каждой базы нужно скачивать свою версию библиотеки soda-core, содержащий в себе "нужный" коннектор к базе. По сути каждая проверка это sql-запрос к базе.

В качестве теста мы запускали отдельные проверки на достаточно больших таблицах (несколько ТБ): при грамотной настройке чеков и анализе последней добавленной партиции — все отрабатывает быстро и не создает дополнительной нагрузки. Тут скорее нас больше интересует какую общую нагрузку на БД (мы используем GP) будут генерировать проверки качества данных. Постараемся поделиться результатами тестов здесь в комментариях.

Information

Rating
543-rd
Works in
Registered
Activity

Specialization

Data Analyst, Data Engineer
Git
Linux
SQL
Python
PostgreSQL
Docker
OOP
Database