Pull to refresh
12
0
Дмитрий Ибрагимов @diarworld

Data Advocate

Send message

Как следить за здоровьем GreenPlum

Reading time8 min
Views3.6K

Вопрос мониторинга GreenPlum часто оказывается непростым, особенно когда на платформе хранится действительно много данных, а запросы пользователей часто меняются. В этом посте я расскажу, как мы в «Леруа Мерлен» настраиваем инструменты Observability, находим узкие места и поддерживаем SLA кластера с GreenPlum на высоком уровне без использования проприетарных решений. Статья будет полезна DWH-архитекторам и DevOps’ам, которые планируют или уже эксплуатируют достаточно большие GP-инсталляции.

Читать далее
Total votes 5: ↑5 and ↓0+5
Comments2

Airflow + Ray: Data Science История

Reading time8 min
Views3.7K

Всем привет! Основным инструментом оркестрации задач для обработки данных в Леруа Мерлен является Apache Airflow, подробнее о нашем опыте работы с ним можно прочитать тут. А также мы находимся в постоянном поиске инструментов и фреймворков для упрощения работы наших дата сайентистов и дата инженеров. Один из таких инструментов – фреймворк Ray, который позволяет создавать ML пайплайны из DAGов Airflow. В статье от Astronomer подробно рассматривается, как начать его использовать и с его помощью быстро развернуть и обучить модель.

Читать далее
Total votes 3: ↑3 and ↓0+3
Comments0

Платформа данных в Леруа Мерлен. Part 2. Обновления 2021 года: Flink и Superset

Reading time11 min
Views12K

Всем привет!

«Данные – это новая нефть» – вам наверняка доводилось уже не раз слышать эту фразу. Впервые в 2006 году эту идею озвучил математик Клайв Хамби в своем блоге, но с тех пор она не потеряла популярности и сейчас её можно услышать почти из каждого утюга. Особую актуальность это выражение приобрело с внедрением технологий обработки больших данных: Hadoop, MapReduce, Spark, Flink, Anaconda (Jupyter), MLFlow, Kubeflow и далее множество других названий, похожих на имена покемонов. В этой статье мы хотели бы рассказать, какие из них мы выбрали в 2021 году в Леруа Мерлен Россия для своей платформы данных. Эта статья является продолжением нашей первой статьи о платформе –  Платформа данных в Леруа Мерлен – 2 года, сотни источников и более 2.000 пользователей.

Читать далее
Total votes 6: ↑5 and ↓1+6
Comments17

Платформа данных в Леруа Мерлен – 2 года, сотни источников и более 2.000 пользователей

Reading time6 min
Views9.3K

Всем привет!

На сегодняшний день данные и всё связанное с ними (ML, AI, DataMining, etc) это самый хайповый тренд в IT-индустрии. Все - от ритейлеров до компаний Илона Маска - работают (или пытаются работать) с данными. Нас в Леруа Мерлен эта волна не обошла стороной - data-driven подход к принятию решений является одним из основных в компании. Следуя ему, мы создали свою платформу данных, которой на данный момент пользуется около 2 тыс.человек, а в минуту обрабатывается примерно 1800 запросов. В этой статье мы (Data-команда Леруа Мерлен Россия) расскажем, как за 2 года построили платформу данных в компании с большим количеством оффлайн-процессов, про ее архитектуру и опыт, который мы получили в процессе создания.

Читать далее
Total votes 7: ↑5 and ↓2+5
Comments16

Information

Rating
Does not participate
Location
Зеленоград, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity