Комментарии 3
Спасибо за статью!
однако я не нашел никакой информации о паттернах работы с данными
На мой взгляд даже на хабре много статей про подходы, просто они не обозначены какими-то аббревиатурами, а представляют из себя описания внутренностей хранилищ данных разных компаний
Что касается Write-Audit-Publish, у нас такие проверки называют "блокирующими" в том плане, что они блокируют дальнейшую работу пайплайна при срабатывании проверки. И, например, в статье Ростелеком используется такое же название: https://habr.com/ru/companies/rostelecom/articles/675554/
Да, все так. Действительно зачастую из описания понятны схожие принципы. С дугой стороны, названия паттернов для того и придумывают, чтобы не приходилось описывать всё целиком и слушать часовой доклад, а было достаточно назвать паттерн и все стало ясно. Например, в вашей статье используется hive в качестве хранилища, а мы переходим на Iceberg, но принцип такой же.
Поэтому я старался описывать паттерн без привязки к конкретным инструментам.
То есть базовый порядок..
Не давать пользователю читать данные, которые не были провалидированы.. мы теперь называем новым паттерном изобретенным в недрах фейсбук.. ( я не считаю эту компанию экстремисткой)
Я всегда считал дата инженеров переинжерами.. Они должны знать больше чем обычный инженер. Ну и уж как минимум занть аюбревиатуру ACID..
ла она скорее про транзикционность и вот это все..
Но сколько же там про не видеть то, что не доделано.. по сути и A и С (в какой-то мере), и I
естественно, мы не говорим про транзационные базы, но называть это новым..
WAP паттерн в data-engineering