import_nickname_as_nick 19 дек 2023 в 12:28

Как мы переезжали с PostgreSQL на Data Lake в AWS и какие грабли собрали по пути

Средний

14 мин

6.6K

Блог компании WhooshPostgreSQL*Amazon Web Services*Геоинформационные сервисы*Data Engineering*

Ретроспектива

+18

Комментарии 8

vadim_bv 20 дек 2023 в 10:45

Расскажите про

LakeHouse
сделать DataQuality с помощью машинного обучения - вот это прямо зацепило, можете поделиться? или это только планы?

import_nickname_as_nick 20 дек 2023 в 15:37

Спасибо за вопросы! Да, преимущественно эти темы у нас в проработке и в планах.
Но, по-порядку:

После накопленного опыта, мы пока только проводим Proof-of-Concept решения, основанного на Delta Lake (Databricks) и присматриваемся к Snowflake; хотим понять, насколько полное покрытие гео-функционалом они предлагают и как это встроить в текущую архитектуру.
Есть нюанс, что для отображения данных на Мартине, требуются тайловые вектора, полноценную поддержку которых пока что дает только PostgreSQL и необходимо понять, как эти системы можно будет друг с другом поженить.
Если получится и даст эффект, то мы напишем отдельную статью, я думаю

Тут мы вдохновились компанией Anomalo, которая такую философию преследует. Мы подумали, что у нас есть своя хорошая команда ML + аналитиков и отличное понимание внутренней структуры данных - поэтому нам виднее, как сделать хороший продукт.
Концепция несложная - Unsupervised Machine Learning, поиск аномалий, выбросов, анализ временных рядов и т.п.;

MironovPeter 20 дек 2023 в 12:52

152-ФЗ? Где у вас хранятся ПДн? Особенно такое количество данных, которые требуете указать при регистрации

import_nickname_as_nick 20 дек 2023 в 15:40

Спасибо за комментарий! Мы полностью следуем законодательству в этом вопросе

bullgare 20 дек 2023 в 13:03

Не пробовали использовать EventBridge?
Там уже вроде можно самому написать, как надо. Хотя есть и минус - придётся писать.

import_nickname_as_nick 20 дек 2023 в 15:49

Честно говоря, не пробовали, спасибо за наводку.
Мы сейчас немного по-другому решили пойти в отношениях с DMS: все логи класть в транзакционном порядке в S3, а потом собственным процессом переносить это в целевую БД.
Это несложно, как может показаться на первый взгляд, т.к. такой сценарий работы с DMS был заложен разработчиками AWS, остается только код написать. Более того, это помогает наполнить историчный слой в хранилище + всегда возможно откатиться на какое-то состояние назад и восстановить состояние таблицы (нечто похожее делает Databricks со своим Delta Lake, но это, безусловно, разные подходы)

bullgare 20 дек 2023 в 21:42

Тогда не забудьте выбрать правильный tier в S3. Glacier в вашем случае, думаю, должен подойти

tantie 20 дек 2023 в 20:59

Почему с парковками не стали рассматривать например: xor, хеширование, спейс-филлинг кривые или какой-нибудь. геохеш?

Как вариант для более точного определения местоположения, можно разбить карту на шестиугольники присвоив им индексы. Таким образом сократив запросы.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий