Articles / Profile of kzzzr / Habr

Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.

• Место reverse ETL в схеме потоков данных

• Потребность в решении задач операционной аналитики

• Различные способы организации reverse ETL

• Кейс: Census для синхронизации данных в Pipedrive CRM

В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL:

kzzzr Nov 15 2022 at 17:21

Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWH

7 min

OTUS corporate blogBig Data*Data Engineering*

Привет! На связи как всегда Артемий Козырь, Analytics Engineer в Wheely.

Если вопросы о том, зачем нужна интеграция данных, в чем различия ETL и ELT, как правило уже не требуют пояснений и ответов, и очевидны почти всем, то вопросы о том, какой именно Extract - Load сервис использовать, в чем различия между разными решениями, и как не прогадать в долгосрочной перспективе я слышу гораздо более часто.

В этой публикации попробую резюмировать свои знания:

— Каталог поддерживаемых источников и приемников данных

— Метод чтения данных из источников (Extract)

— Способы репликации в целевое Хранилище (Load)

— Работа с изменениями структуры данных (Schema Evolution)

— Трансформации перед загрузкой данных (EtLT)

— Тип развертывания решения (Deployment)

Буду объянять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии униварсальны и применимы для любых других систем подбного класса.

kzzzr Aug 17 2022 at 11:31

Сценарии применения Greenplum PXF для интеграции с Data Lake, OLTP, Clickhouse

9 min

22K

OTUS corporate blogData Engineering*

Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely.

Популярность массивно-параллельных СУБД (MPP) для решения аналитических задач неукоснительно растет. Сегодня хотел бы поговорить о широко распространенной СУБД Greenplum и, в частности, о Platform Extension Framework (PXF) - расширении, с помощью которого открываются почти неограниченные возможности интеграции с множеством внешних систем и форматов данных.

В этой публикации Вас ждет:

– Основные возможности PXF, конфигурация, способы оптимизации.

– Организация Extract - Load с помощью PXF (Data Lake / OLTP).

– Объединение локальных и внешних таблиц в запросах (Federated queries).

– Запись данных во внешние системы (Clickhouse).

kzzzr May 13 2022 at 20:03

Кто такой Analytics Engineer – E2E-решение с использованием bash + dbt + Looker

8 min

OTUS corporate blogBig Data*Data Engineering*

Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely.

Мы могли бы долго и нудно обсуждать, кто такой Analytics (Data / Backend) Engineer, какими инструментами он должен владеть, какие buzzwords в тренде и ценятся в CV, однако, на мой взгляд, гораздо интереснее рассмотреть процесс и результаты его деятельности в рамках конкретной прикладной задачи.

В этой публикации:

kzzzr Apr 18 2022 at 15:44

Требования к ETL-сервисам – построение аналитических решений на базе myBI Connect

9 min

2.3K

OTUS corporate blogBig Data*Data Engineering*

Привет от Technology Enthusiast! Сегодня речь пойдет о сервисах интеграции данных, их функциональных возможностях и ограничениях. Рассмотрение будем вести на примере сервиса myBI Connect, опираясь на который я реализовал с десяток аналитических проектов за последние несколько лет.

Отмечу, что с конца февраля ребята сделали значительные шаги в сторону развития отказоустойчивости и масштабируемости своего решения. Заглядывайте под кат, если стоите перед выбором коннектора или хотите выжимать максимум из доступного:

• Требования и ожидаемые результаты

• Функциональные возможности

• Сценарии использования и бизнес-ценность

• Планы развития, продвинутое моделирование и BI

kzzzr Apr 13 2022 at 18:13

Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни

7 min

5.8K

OTUS corporate blogBig Data*Data Engineering*

Итак, Вы работаете с Большими Данными:

– Обработка этих данных требует значительного времени (и затрат ?).

– Исторические данные не меняются (или не должны меняться) - как правило, это свершившиеся факты.

– Если Вам удается не делать повторную обработку исторических данных - Вы экономите время и затраты.

kzzzr Feb 10 2022 at 12:09

Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты

6 min

5.6K

OTUS corporate blogBig Data*Data Engineering*

Всем привет! На связи Артемий Козырь – Analytics Engineer в Wheely.

Продолжаю серию публикаций в формате “вредных советов”, целью которых является попытка обратить внимание на (не)лучшие практики и подходы в построении аналитических сервисов с реальными примерами и историями.

В этой публикации Вас ожидает:

kzzzr Jan 28 2022 at 15:54

Вредные советы при построении Аналитики (Data Lake / DWH / BI) – чего стоит избегать

5 min

6.5K

OTUS corporate blogBig Data*Data Engineering*

Technotext 2022

Всем привет! На связи Артемий, со-автор и преподаватель курсов Data Engineer, DWH Analyst.

Последние месяцы я много занимаюсь рефакторингом кодовой базы, оптимизацией процессов и расчетов в сфере Анализа Данных.

Появилось желание в формате “вредных советов” обратить внимание на набор практик и подходов, которые могут обернуться весьма неприятными последствиями, а порой и вовсе дорого обойтись Вашей компании.

В публикации Вас ожидает:

- Использование select * – всё и сразу

- Употребление чрезмерного количество CTEs (common table expressions)

- NOT DRY (Don’t repeat yourself) – повторение и калейдоскопический характер расчетов

+12

kzzzr Nov 22 2021 at 17:54

Полуструктурированные данные в Аналитических Хранилищах

9 min

3.5K

OTUS corporate blogBig Data*Data Engineering*

Привет! На связи Артемий – Analytics Engineer @ Wheely.

В последние годы явным стал тренд на анализ слабоструктурированных данных – всевозможных событий, логов, API-выгрузок, реплик schemaless баз данных. Но для привычной реляционной модели это требует адаптации ряда новых подходов к работе с данными, о которых я и попробую рассказать сегодня.

В публикации:

- Преимущества гибкой схемы и semi-structured data

- Источники таких данных: Events, Logs, API

- Подходы к обработке: Special Data Types, Functions, Data Lakehouse

- Принципы оптимизации производительности

kzzzr Nov 11 2021 at 17:00

Строим Data Vault на данных TPC-H – Greenplum + dbtVault

8 min

9.1K

OTUS corporate blogBig Data*Data Engineering*

Привет! На связи Артемий – энтузиаст в сфере Data Warehousing, Analytics, DataOps.

Уже продолжительное время я занимаюсь моделированием DWH с использованием dbt, и сегодня пришло время познакомить вас с package для построения Data Vault – dbtVault.

В публикации:

• Готовим датасет TPC-H

• Поднимаем кластер Greenplum в Яндекс.Облаке

• Погружаемся в кодогенерацию и макросы dbtVault

• Cимулируем инкрементальное наполнение Data Vault

kzzzr Aug 26 2021 at 13:09

Airbyte для управления потоками данных – репликация Яндекс.Метрика в S3

9 min

16K

OTUS corporate blogBig Data*Data Engineering*

Современные Data Pipelines превратились в commodity наподобие электричества в розетке – они просто должны быть и функционировать, обеспечивая базовые потребности аналитиков и инженеров.

Множество компаний, таких как Fivetran, Hevo, Alooma, сегодня зарабатывают на предоставлении Data Pipelines / Integration как сервис. Наряду с очевидными преимуществами, основными недостатками являются закрытый исходный код и отсутствие возможности быстро добавлять новые коннекторы.

В этой публикации на примере репликации данных открытого счетчика Яндекс.Метрика в объектное хранилище S3 я познакомлю вас с Airbyte – решением с открытым исходным кодом. Это новый стандарт для выстраивания потоков интеграции данных из всевозможных приложений, баз данных и API в аналитические хранилища данных, озера данных.

kzzzr Aug 13 2021 at 19:12

SQL на стероидах – 5 кейсов использования dbt + Jinja

10 min

5.5K

OTUS corporate blogSQL*Big Data*Data Engineering*

SQL – это нескучно. С современными инструментами возможности языка кратно возросли. Мультитул для моделирования данных dbt, современные колоночные аналитические СУБД позволяют буквально творить с данными чудеса.

Меня зовут Артемий и я Analytics Engineer в компании Wheely. И сегодня я подготовил небольшой экскурс в реальные и интересные сценарии использования гибридного SQL

– Операции Pivot и Unpivot для табличных данных

– Генерирование суррогатного ключа и ключа конкатенации

– Гибкая фильтрация записей из таблиц-источников

– Автоматизация экспорта данных из Хранилища в S3

– Валютные курсы, Continuous Integration, Data Quality

kzzzr Aug 4 2021 at 18:14

Формируем реляционную модель из schemaless базы данных MongoDB

6 min

4.1K

OTUS corporate blogNoSQL*MongoDB*Big Data*Data Engineering*

MongoDB – одна из самых популярных документ-ориентированных баз данных класса NoSQL с большим сообществом пользователей. Ее основными преимуществами являются гибкость схемы хранения, иерархическая структура документов, поддержка расширенного набора типов данных. Сегодня MongoDB чаще всего используется как бэкенд веб- и мобильных приложений.

Казалось бы, зачем может потребоваться извлекать схему данных в schemaless database? Однако это может быть крайне полезно и в некоторых ситуациях абсолютно необходимо:

• Репликация данных в аналитическое хранилище

• Интерактивная аналитика из BI-инструментов (SQL)

• Аудит имеющейся структуры БД

В этой публикации я хотел бы показать простой и удобный способ получения схемы хранения данных, даже при наличии сотен коллекций и миллионов документов в MongoDB.

kzzzr Jul 15 2021 at 16:05

Интеграционные тесты для Хранилища Данных – Настраиваем Slim CI для DWH

9 min

2.2K

OTUS corporate blogBig Data*Data Engineering*

Привет! На связи Артемий – Analytics Engineer из Wheely.

В условиях постоянно растущей сложности аналитических инструментов и распределенной команды не просто возможно, но и необходимо повышать скорость поставки (T2M) и качество (Quality) выводимого в продуктив функционала. Фокус сегодняшней публикации – внедрение практик интеграционного тестирования с учетом современного аналитического стека.

С практическими примерами и рекомендациями будут рассмотрены следующие аспекты:

– Специфика аналитических приложений и пространство для DevOps практик

– Рецепт для внедрения Continuous Integration шаг за шагом

– Slim CI: оптимизируем и ускоряем процессы

Велком под кат, если словосочетания Continuous Integration, Integration Testing, Time to Market вызывают у вас здоровый энтузиазм и интерес.

Поехали!

kzzzr May 19 2021 at 16:15

Курсы валют и аналитика – использование обменных курсов в Хранилище Данных

8 min

4.1K

OTUS corporate blogBig Data*Data Engineering*

Привет! На связи Артемий – Analytics Engineer из Wheely.

Сегодня хотел бы поговорить о вопросах конвертирования финансовых показателей в разные валюты. Вопрос достаточно актуальный, так как большое количество компаний имеют мультинациональные зоны присутствия, строят аналитику глобального масштаба, готовят отчетность по международным стандартам.

Покажу как этот вопрос решается с помощью современных подходов на примере кейса Wheely:

– Расширение списка базовых валют

– Регулярное обновление и получения актуальных курсов

– Обеспечение корректности исторических показателей

– Максимальное удобство и простота использования в аналитических инструментах

Велком под кат для разбора решения проблемы учета мультивалютных метрик и показателей: Open Exchange Rate, Airflow, Redshift Spectrum, dbt.

Смотреть решение

kzzzr Mar 29 2021 at 23:08

Мультитул для управления Хранилищем Данных — кейс Wheely + dbt

18 min

Wheely corporate blogBig Data*Data storages*Data Engineering*

Уже более двух лет data build tool активно используется в компании Wheely для управления Хранилищем Данных. За это время накоплен немалый опыт, мы на тернистом пути проб и ошибок к совершенству в Analytics Engineering.

Несмотря на то, что в русскоязычном сегменте уже есть несколько публикаций, посвященных применению dbt, всё ещё нельзя говорить о широкой популярности и интересе, которые продукт стремительно обретает на Западе.

Поэтому сегодня я предлагаю вам экскурсию по Хранилищу Данных Wheely. В формат публикации я попытался уложить самые яркие моменты и впечатления от использования dbt, снабдив реальными примерами, практиками и опытом. Добро пожаловать под кат.

kzzzr Feb 11 2021 at 11:24

SQL для аналитики — рейтинг прикладных задач с решениями

11 min

47K

OTUS corporate blogSQL*Big Data*Data visualization*Data Engineering*

Привет, Хабр! У кого из вас black belt на sql-ex.ru, признавайтесь? На заре своей карьеры я немало времени провел на этом сайте, практикуясь и оттачивая навыки. Должен отметить, что это было увлекательное и вознаграждающее путешествие. Пришло время воздать должное.

В этой публикации я собрал топ прикладных задач и мои подходы к их решению в терминах SQL. Каждая задача снабжена кусочком данных и кодом, с которым можно интерактивно поиграться на SQL Fiddle.

+19

kzzzr Jan 25 2021 at 16:44

Аналитический движок Amazon Redshift + преимущества Облака

9 min

9.3K

Wheely corporate blogBig Data*Data Engineering*Database Administration*

Аналитический движок Amazon Redshift + преимущества Облака

Привет, Хабр!

На связи Артемий Козырь из команды Аналитики, и я продолжаю знакомить вас с Wheely. В этом выпуске:

Основы гибких кластерных вычислений
Колоночное хранение и компрессия данных
Вместо индексов: ключи сегментации и сортировки
Управление доступами, правами, ресурсами
Интеграция с S3 или Даталейк на ровном месте

Читать дальше →

kzzzr Jan 19 2021 at 14:54

Сквозная Аналитика на Azure SQL + dbt + Github Actions + Metabase

12 min

Big Data*Data Engineering*SQL*System Analysis and Design*Data visualization*

Technotext 2021

Title

Привет, Хабр! Меня зовут Артемий Козырь.

За последние годы у меня накопился довольно обширный опыт работы с данными и тем, что сейчас называют Big Data.

Не так давно также разгорелся интерес к сфере интернет-маркетинга и Сквозной Аналитики, и не на пустом месте. Мой друг из действующего агентства снабдил меня данными и кейсами реальных клиентов, и тут ~~засквозило~~ понеслось.
Получается довольно интересно: Azure SQL + dbt + Github Actions + Metabase.

Читать дальше →

+10

Семантический слой для Аналитики ключевых метрик – dbt Metrics vs. Cube

Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census

Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWH

Сценарии применения Greenplum PXF для интеграции с Data Lake, OLTP, Clickhouse

Кто такой Analytics Engineer – E2E-решение с использованием bash + dbt + Looker

Требования к ETL-сервисам – построение аналитических решений на базе myBI Connect

Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни

Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты

Вредные советы при построении Аналитики (Data Lake / DWH / BI) – чего стоит избегать

Полуструктурированные данные в Аналитических Хранилищах

Строим Data Vault на данных TPC-H – Greenplum + dbtVault

Airbyte для управления потоками данных – репликация Яндекс.Метрика в S3

SQL на стероидах – 5 кейсов использования dbt + Jinja

Формируем реляционную модель из schemaless базы данных MongoDB

Интеграционные тесты для Хранилища Данных – Настраиваем Slim CI для DWH

Курсы валют и аналитика – использование обменных курсов в Хранилище Данных

Мультитул для управления Хранилищем Данных — кейс Wheely + dbt

SQL для аналитики — рейтинг прикладных задач с решениями

Аналитический движок Amazon Redshift + преимущества Облака

Сквозная Аналитика на Azure SQL + dbt + Github Actions + Metabase

Information

Specialization