Как стать автором
Обновить

Как мы переезжали с PostgreSQL на Data Lake в AWS и какие грабли собрали по пути

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров7K
Всего голосов 18: ↑18 и ↓0+18
Комментарии8

Комментарии 8

Расскажите про

  1. LakeHouse

  2. сделать DataQuality с помощью машинного обучения - вот это прямо зацепило, можете поделиться? или это только планы?

Спасибо за вопросы! Да, преимущественно эти темы у нас в проработке и в планах.
Но, по-порядку:

  1. После накопленного опыта, мы пока только проводим Proof-of-Concept решения, основанного на Delta Lake (Databricks) и присматриваемся к Snowflake; хотим понять, насколько полное покрытие гео-функционалом они предлагают и как это встроить в текущую архитектуру.
    Есть нюанс, что для отображения данных на Мартине, требуются тайловые вектора, полноценную поддержку которых пока что дает только PostgreSQL и необходимо понять, как эти системы можно будет друг с другом поженить.
    Если получится и даст эффект, то мы напишем отдельную статью, я думаю

  1. Тут мы вдохновились компанией Anomalo, которая такую философию преследует. Мы подумали, что у нас есть своя хорошая команда ML + аналитиков и отличное понимание внутренней структуры данных - поэтому нам виднее, как сделать хороший продукт.
    Концепция несложная - Unsupervised Machine Learning, поиск аномалий, выбросов, анализ временных рядов и т.п.;

152-ФЗ? Где у вас хранятся ПДн? Особенно такое количество данных, которые требуете указать при регистрации

Не пробовали использовать EventBridge?
Там уже вроде можно самому написать, как надо. Хотя есть и минус - придётся писать.

Честно говоря, не пробовали, спасибо за наводку.
Мы сейчас немного по-другому решили пойти в отношениях с DMS: все логи класть в транзакционном порядке в S3, а потом собственным процессом переносить это в целевую БД.
Это несложно, как может показаться на первый взгляд, т.к. такой сценарий работы с DMS был заложен разработчиками AWS, остается только код написать. Более того, это помогает наполнить историчный слой в хранилище + всегда возможно откатиться на какое-то состояние назад и восстановить состояние таблицы (нечто похожее делает Databricks со своим Delta Lake, но это, безусловно, разные подходы)

Тогда не забудьте выбрать правильный tier в S3. Glacier в вашем случае, думаю, должен подойти

Почему с парковками не стали рассматривать например: xor, хеширование, спейс-филлинг кривые или какой-нибудь. геохеш?

Как вариант для более точного определения местоположения, можно разбить карту на шестиугольники присвоив им индексы. Таким образом сократив запросы.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий