Как стать автором
Поиск
Написать публикацию
Обновить

Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.2K
Всего голосов 8: ↑6 и ↓2+6
Комментарии5

Комментарии 5

С нашей стороны, как сейчас уже понятно, было ошибкой отдавать разработку микросервиса на аутсорс. Нет, они всё хорошо разработали, но подрядчики рано или поздно заканчиваются, и нам пришлось попрощаться с ними.

Загадочный абзац. Как это "подрядчики .. заканчиваются" интересно? Так разбогатели что им не интересно стало работу работать или состарились и умерли или вас жаба задушила им деньги за работу платить? ... У меня нет адекватного варианта, кто это отказывается от работы за которую деньги платят?

Там активное комьюнити, люди пользуются, проблем нет.

А это не повторение первого этапа, который закончился тем что комьюнити будет делать то что ему интересно, а не решать ваши проблемы бесплатно?

видимо:

СИБУР — большая компания, но не настолько.

чтобы осознавать ответственность за развитие нужного компании програмного продукта и вкладывать в это деньги.

Коллеги, спасибо за статью, возник ряд вопросов:
1. Для каких данных вы организовываете процесс DQ? Для time series (датчики, промышленные данные), для транзакционных данных (пусть, данные MES систем), для химанализов?
2. Какие способы проверки данных вам были важны при выборе инструментов? Ведь можно проверять на адекватность (сумма хим. элементов не больше 100%), можно отслеживать допустимые границы параметров, можно отслеживать аномальные поведения в данных?
3. Варианты проверки данных кто настраивает и как? (если еще не дошли до этого этапа, то как планируете реализовывать)?

Спасибо за вопросы!
1. Для всех данных в компании, которые есть в дата-платформе. Для перечисленных точно применимо.
2. Нам было важно выполнять технические проверки, которые в зоне ответственности инженеров и архитекторов данных, а также предоставить интерфейс для бизнес-пользователей для написания проверок, связанных с бизнес-логикой. Отслеживание аномалий также сюда входит, хотя это делалось все в ручном формате и не довелось до автоматизма, то есть бизнес-проверки писались пользователем.
3. Частично ответили в п.2. Настраивать могут, как правило, Ответственный за качество данных (это человек от бизнеса, мы не используем общепринятое понятие Data Steward, хотя это он и есть) в рамках ролевой модели, Архитекторы данных, Инженеры данных, а также DQ специалисты на крупных проектах.

К сожалению для использования Soda Library требуется аккаунт на Soda Cloud и соответствующий API-key. Так что выбор Soda в плане импортозамещения не оправдан((

Не совсем согласны. У нас нет необходимости в аккаунте на Soda Cloud или API ключе. Мы используем Soda Core, он полностью бесплатный и с открытым исходным кодом.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий