Обновить
6
0
Марк@p0mami

Data Scientist

Отправить сообщение

DataVault на Greenplum с помощью DBT

Время на прочтение12 мин
Охват и читатели16K

Привет, Хабр!

Меня зовут Марк Порошин, я занимаюсь DataScience в DV Group. Недавно я уже рассказывал про то, как начать трансформировать данные с помощью dbt. Сегодня я решил поделиться, как мы в DV Group поженили dbt, Greenplum и DataVault, собрали все грабли, что могли; немного поконтрибьютили в open-source, но по итогу остались очень довольны результатом.

Расскажу сначала пару слов о том, что такое DataVault. DataVault - методология построения хранилища, предполагающая высокую нормализацию данных (3ая нормальная форма). Основными ее компонентами являются:

Читать далее

Введение в dbt шаг за шагом

Время на прочтение11 мин
Охват и читатели42K

Привет, Хабр!

Меня зовут Марк Порошин, в DV Group я занимаюсь Data Science. Мы работаем с большим количеством данных, на данный момент приближаемся к 10тб данных на нашем кластере Greenplum. Источники данных постоянно дополняются, а их структура меняется, поэтому в качестве методологии построения хранилища мы выбрали DataVault. Для автоматизации трансформации данных решили использовать dbt, о котором я хочу рассказать в данной статье.

Читать далее

Как мы классифицировали товары при разработке СDP-платформы

Время на прочтение8 мин
Охват и читатели2.3K

Привет, хабр!

Меня зовут Марк Порошин вместе с моим коллегой Артемом Шнайдером в DV Group мы занимаемся Data Science. Сейчас мы активно развиваем собственную платформу клиентских данных (CDP) DV Platform. Коротко расскажу, зачем вообще она нужна. Платформа обрабатывает данные из маркетплейсов и позволяет создавать и передавать сегменты пользователей, которые с наибольшей вероятностью совершат покупки конкретной категории или товара. Это позволяет оптимизировать маркетинговые бюджеты и увеличивать онлайн-продажи брендов.

Читать далее

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность