Комментарии 8
Расскажите про
LakeHouse
сделать DataQuality с помощью машинного обучения - вот это прямо зацепило, можете поделиться? или это только планы?
Спасибо за вопросы! Да, преимущественно эти темы у нас в проработке и в планах.
Но, по-порядку:
После накопленного опыта, мы пока только проводим Proof-of-Concept решения, основанного на Delta Lake (Databricks) и присматриваемся к Snowflake; хотим понять, насколько полное покрытие гео-функционалом они предлагают и как это встроить в текущую архитектуру.
Есть нюанс, что для отображения данных на Мартине, требуются тайловые вектора, полноценную поддержку которых пока что дает только PostgreSQL и необходимо понять, как эти системы можно будет друг с другом поженить.
Если получится и даст эффект, то мы напишем отдельную статью, я думаю
Тут мы вдохновились компанией Anomalo, которая такую философию преследует. Мы подумали, что у нас есть своя хорошая команда ML + аналитиков и отличное понимание внутренней структуры данных - поэтому нам виднее, как сделать хороший продукт.
Концепция несложная - Unsupervised Machine Learning, поиск аномалий, выбросов, анализ временных рядов и т.п.;
152-ФЗ? Где у вас хранятся ПДн? Особенно такое количество данных, которые требуете указать при регистрации
Не пробовали использовать EventBridge?
Там уже вроде можно самому написать, как надо. Хотя есть и минус - придётся писать.
Честно говоря, не пробовали, спасибо за наводку.
Мы сейчас немного по-другому решили пойти в отношениях с DMS: все логи класть в транзакционном порядке в S3, а потом собственным процессом переносить это в целевую БД.
Это несложно, как может показаться на первый взгляд, т.к. такой сценарий работы с DMS был заложен разработчиками AWS, остается только код написать. Более того, это помогает наполнить историчный слой в хранилище + всегда возможно откатиться на какое-то состояние назад и восстановить состояние таблицы (нечто похожее делает Databricks со своим Delta Lake, но это, безусловно, разные подходы)
Почему с парковками не стали рассматривать например: xor, хеширование, спейс-филлинг кривые или какой-нибудь. геохеш?
Как вариант для более точного определения местоположения, можно разбить карту на шестиугольники присвоив им индексы. Таким образом сократив запросы.
Как мы переезжали с PostgreSQL на Data Lake в AWS и какие грабли собрали по пути