Pull to refresh
26
0
Artemiy Kozyr @kzzzr

Analytics Engineer / Data / Cloud

Send message

Семантический слой для Аналитики ключевых метрик – dbt Metrics vs. Cube

Level of difficultyMedium
Reading time5 min
Views3.1K

Привет! Сегодня речь пойдет о семантическом слое метрик. В публикации рассмотрим на практике грани интересной темы:

— Что такое семантический слой, и в чем разница между Метрикой и Витриной данных.

— Пути формирования метрик: SQL (ad-hoc), UI, dbt Metrics, Cube.

— Примеры декларативной конфигурации в YAML и использования метрик.

— На что обращать внимание при выборе решения: Стек технологий, Доступность vs. Выразительнось, Гибкость vs. Скорость.

Читать далее
Total votes 11: ↑11 and ↓0+11
Comments0

Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census

Reading time6 min
Views1.6K

Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.

Место reverse ETL в схеме потоков данных

Потребность в решении задач операционной аналитики

Различные способы организации reverse ETL

Кейс: Census для синхронизации данных в Pipedrive CRM

В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL:

Читать далее
Total votes 5: ↑3 and ↓2+2
Comments0

Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWH

Reading time7 min
Views3K

Привет! На связи как всегда Артемий Козырь, Analytics Engineer в Wheely.

Если вопросы о том, зачем нужна интеграция данных, в чем различия ETL и ELT, как правило уже не требуют пояснений и ответов, и очевидны почти всем, то вопросы о том, какой именно Extract - Load сервис использовать, в чем различия между разными решениями, и как не прогадать в долгосрочной перспективе я слышу гораздо более часто.

В этой публикации попробую резюмировать свои знания:

— Каталог поддерживаемых источников и приемников данных

— Метод чтения данных из источников (Extract)

— Способы репликации в целевое Хранилище (Load)

— Работа с изменениями структуры данных (Schema Evolution)

— Трансформации перед загрузкой данных (EtLT)

— Тип развертывания решения (Deployment)

Буду объянять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии униварсальны и применимы для любых других систем подбного класса.

Читать далее
Total votes 4: ↑3 and ↓1+2
Comments2

Сценарии применения Greenplum PXF для интеграции с Data Lake, OLTP, Clickhouse

Reading time9 min
Views22K

Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely.

Популярность массивно-параллельных СУБД (MPP) для решения аналитических задач неукоснительно растет. Сегодня хотел бы поговорить о широко распространенной СУБД Greenplum и, в частности, о Platform Extension Framework (PXF) - расширении, с помощью которого открываются почти неограниченные возможности интеграции с множеством внешних систем и форматов данных.

В этой публикации Вас ждет:

– Основные возможности PXF, конфигурация, способы оптимизации.

– Организация Extract - Load с помощью PXF (Data Lake / OLTP).

Объединение локальных и внешних таблиц в запросах (Federated queries).

Запись данных во внешние системы (Clickhouse).

Читать далее
Total votes 7: ↑7 and ↓0+7
Comments2

Кто такой Analytics Engineer – E2E-решение с использованием bash + dbt + Looker

Reading time8 min
Views3K

Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely.

Мы могли бы долго и нудно обсуждать, кто такой Analytics (Data / Backend) Engineer, какими инструментами он должен владеть, какие buzzwords в тренде и ценятся в CV, однако, на мой взгляд, гораздо интереснее рассмотреть процесс и результаты его деятельности в рамках конкретной прикладной задачи.

В этой публикации:

Читать далее
Total votes 7: ↑6 and ↓1+7
Comments1

Требования к ETL-сервисам – построение аналитических решений на базе myBI Connect

Reading time9 min
Views2.3K

Привет от Technology Enthusiast! Сегодня речь пойдет о сервисах интеграции данных, их функциональных возможностях и ограничениях. Рассмотрение будем вести на примере сервиса myBI Connect, опираясь на который я реализовал с десяток аналитических проектов за последние несколько лет.

Отмечу, что с конца февраля ребята сделали значительные шаги в сторону развития отказоустойчивости и масштабируемости своего решения. Заглядывайте под кат, если стоите перед выбором коннектора или хотите выжимать максимум из доступного:

Требования и ожидаемые результаты

Функциональные возможности

Сценарии использования и бизнес-ценность

Планы развития, продвинутое моделирование и BI

Читать далее
Total votes 5: ↑4 and ↓1+3
Comments0

Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни

Reading time7 min
Views5.8K

Итак, Вы работаете с Большими Данными:

– Обработка этих данных требует значительного времени (и затрат ?).

– Исторические данные не меняются (или не должны меняться) - как правило, это свершившиеся факты.

– Если Вам удается не делать повторную обработку исторических данных - Вы экономите время и затраты.

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments2

Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты

Reading time6 min
Views5.6K

Всем привет! На связи Артемий Козырь – Analytics Engineer в Wheely.

Продолжаю серию публикаций в формате “вредных советов”, целью которых является попытка обратить внимание на (не)лучшие практики и подходы в построении аналитических сервисов с реальными примерами и историями.

В этой публикации Вас ожидает:

Читать далее
Total votes 9: ↑8 and ↓1+8
Comments1

Вредные советы при построении Аналитики (Data Lake / DWH / BI) – чего стоит избегать

Reading time5 min
Views6.5K

Всем привет! На связи Артемий, со-автор и преподаватель курсов Data Engineer, DWH Analyst.

Последние месяцы я много занимаюсь рефакторингом кодовой базы, оптимизацией процессов и расчетов в сфере Анализа Данных.

Появилось желание в формате “вредных советов” обратить внимание на набор практик и подходов, которые могут обернуться весьма неприятными последствиями, а порой и вовсе дорого обойтись Вашей компании.

В публикации Вас ожидает:

- Использование select * – всё и сразу

- Употребление чрезмерного количество CTEs (common table expressions)

- NOT DRY (Don’t repeat yourself) – повторение и калейдоскопический характер расчетов

Читать далее
Total votes 12: ↑12 and ↓0+12
Comments2

Полуструктурированные данные в Аналитических Хранилищах

Reading time9 min
Views3.5K

Привет! На связи Артемий – Analytics Engineer @ Wheely.

В последние годы явным стал тренд на анализ слабоструктурированных данных – всевозможных событий, логов, API-выгрузок, реплик schemaless баз данных. Но для привычной реляционной модели это требует адаптации ряда новых подходов к работе с данными, о которых я и попробую рассказать сегодня.

В публикации:

- Преимущества гибкой схемы и semi-structured data

- Источники таких данных: Events, Logs, API

- Подходы к обработке: Special Data Types, Functions, Data Lakehouse

- Принципы оптимизации производительности

Читать далее
Total votes 6: ↑4 and ↓2+5
Comments0

Строим Data Vault на данных TPC-H – Greenplum + dbtVault

Reading time8 min
Views9.1K

Привет! На связи Артемий – энтузиаст в сфере Data Warehousing, Analytics, DataOps.

Уже продолжительное время я занимаюсь моделированием DWH с использованием dbt, и сегодня пришло время познакомить вас с package для построения Data Vault – dbtVault.

В публикации:

Готовим датасет TPC-H

Поднимаем кластер Greenplum в Яндекс.Облаке

Погружаемся в кодогенерацию и макросы dbtVault

Cимулируем инкрементальное наполнение Data Vault

Читать далее
Total votes 7: ↑7 and ↓0+7
Comments1

Airbyte для управления потоками данных –  репликация Яндекс.Метрика в S3

Reading time9 min
Views16K

Современные Data Pipelines превратились в commodity наподобие электричества в розетке – они просто должны быть и функционировать, обеспечивая базовые потребности аналитиков и инженеров. 

Множество компаний, таких как Fivetran, Hevo, Alooma, сегодня зарабатывают на предоставлении Data Pipelines / Integration как сервис. Наряду с очевидными преимуществами, основными недостатками являются закрытый исходный код и отсутствие возможности быстро добавлять новые коннекторы.

В этой публикации на примере репликации данных открытого счетчика Яндекс.Метрика в объектное хранилище S3 я познакомлю вас с Airbyte – решением с открытым исходным кодом. Это новый стандарт для выстраивания потоков интеграции данных из всевозможных приложений, баз данных и API в аналитические хранилища данных, озера данных.

Читать далее
Total votes 6: ↑6 and ↓0+6
Comments3

SQL на стероидах – 5 кейсов использования dbt + Jinja

Reading time10 min
Views5.5K

SQL – это нескучно. С современными инструментами возможности языка кратно возросли. Мультитул для моделирования данных dbt, современные колоночные аналитические СУБД позволяют буквально творить с данными чудеса.

Меня зовут Артемий и я Analytics Engineer в компании Wheely. И сегодня я подготовил небольшой экскурс в реальные и интересные сценарии использования гибридного SQL

– Операции Pivot и Unpivot для табличных данных

– Генерирование суррогатного ключа и ключа конкатенации

– Гибкая фильтрация записей из таблиц-источников

– Автоматизация экспорта данных из Хранилища в S3

– Валютные курсы, Continuous Integration, Data Quality

Читать далее
Total votes 5: ↑5 and ↓0+5
Comments0

Формируем реляционную модель из schemaless базы данных MongoDB

Reading time6 min
Views4.1K

MongoDB – одна из самых популярных документ-ориентированных баз данных класса NoSQL с большим сообществом пользователей. Ее основными преимуществами являются гибкость схемы хранения, иерархическая структура документов, поддержка расширенного набора типов данных. Сегодня MongoDB чаще всего используется как бэкенд веб- и мобильных приложений.

Казалось бы, зачем может потребоваться извлекать схему данных в schemaless database? Однако это может быть крайне полезно и в некоторых ситуациях абсолютно необходимо:

•  Репликация данных в аналитическое хранилище

•  Интерактивная аналитика из BI-инструментов (SQL)

•  Аудит имеющейся структуры БД

В этой публикации я хотел бы показать простой и удобный способ получения схемы хранения данных, даже при наличии сотен коллекций и миллионов документов в MongoDB.

Читать далее
Total votes 4: ↑3 and ↓1+3
Comments0

Интеграционные тесты для Хранилища Данных – Настраиваем Slim CI для DWH

Reading time9 min
Views2.2K

Привет! На связи Артемий – Analytics Engineer из Wheely.

В условиях постоянно растущей сложности аналитических инструментов и распределенной команды не просто возможно, но и необходимо повышать скорость поставки (T2M) и качество (Quality) выводимого в продуктив функционала. Фокус сегодняшней публикации – внедрение практик интеграционного тестирования с учетом современного аналитического стека.

С практическими примерами и рекомендациями будут рассмотрены следующие аспекты:

– Специфика аналитических приложений и пространство для DevOps практик

– Рецепт для внедрения Continuous Integration шаг за шагом

– Slim CI: оптимизируем и ускоряем процессы

Велком под кат, если словосочетания Continuous Integration, Integration Testing, Time to Market вызывают у вас здоровый энтузиазм и интерес.

Поехали!
Total votes 6: ↑6 and ↓0+6
Comments0

Курсы валют и аналитика – использование обменных курсов в Хранилище Данных

Reading time8 min
Views4.1K

Привет! На связи Артемий – Analytics Engineer из Wheely.

Сегодня хотел бы поговорить о вопросах конвертирования финансовых показателей в разные валюты. Вопрос достаточно актуальный, так как большое количество компаний имеют мультинациональные зоны присутствия, строят аналитику глобального масштаба, готовят отчетность по международным стандартам.

Покажу как этот вопрос решается с помощью современных подходов на примере кейса Wheely:

– Расширение списка базовых валют

– Регулярное обновление и получения актуальных курсов

– Обеспечение корректности исторических показателей

– Максимальное удобство и простота использования в аналитических инструментах

Велком под кат для разбора решения проблемы учета мультивалютных метрик и показателей: Open Exchange Rate, Airflow, Redshift Spectrum, dbt.

Смотреть решение
Total votes 6: ↑6 and ↓0+6
Comments0

Мультитул для управления Хранилищем Данных — кейс Wheely + dbt

Reading time18 min
Views6K

Уже более двух лет data build tool активно используется в компании Wheely для управления Хранилищем Данных. За это время накоплен немалый опыт, мы на тернистом пути проб и ошибок к совершенству в Analytics Engineering.

Несмотря на то, что в русскоязычном сегменте уже есть несколько публикаций, посвященных применению dbt, всё ещё нельзя говорить о широкой популярности и интересе, которые продукт стремительно обретает на Западе.

Поэтому сегодня я предлагаю вам экскурсию по Хранилищу Данных Wheely. В формат публикации я попытался уложить самые яркие моменты и впечатления от использования dbt, снабдив реальными примерами, практиками и опытом. Добро пожаловать под кат.

Читать далее
Total votes 8: ↑8 and ↓0+8
Comments2

SQL для аналитики — рейтинг прикладных задач с решениями

Reading time11 min
Views47K

Привет, Хабр! У кого из вас black belt на sql-ex.ru, признавайтесь? На заре своей карьеры я немало времени провел на этом сайте, практикуясь и оттачивая навыки. Должен отметить, что это было увлекательное и вознаграждающее путешествие. Пришло время воздать должное.

В этой публикации я собрал топ прикладных задач и мои подходы к их решению в терминах SQL. Каждая задача снабжена кусочком данных и кодом, с которым можно интерактивно поиграться на SQL Fiddle.

Читать далее
Total votes 17: ↑15 and ↓2+19
Comments5

Аналитический движок Amazon Redshift + преимущества Облака

Reading time9 min
Views9.3K

Аналитический движок Amazon Redshift + преимущества Облака


Привет, Хабр!


На связи Артемий Козырь из команды Аналитики, и я продолжаю знакомить вас с Wheely. В этом выпуске:


  • Основы гибких кластерных вычислений
  • Колоночное хранение и компрессия данных
  • Вместо индексов: ключи сегментации и сортировки
  • Управление доступами, правами, ресурсами
  • Интеграция с S3 или Даталейк на ровном месте
Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments14

Сквозная Аналитика на Azure SQL + dbt + Github Actions + Metabase

Reading time12 min
Views8K

Title


Привет, Хабр! Меня зовут Артемий Козырь.


За последние годы у меня накопился довольно обширный опыт работы с данными и тем, что сейчас называют Big Data.


Не так давно также разгорелся интерес к сфере интернет-маркетинга и Сквозной Аналитики, и не на пустом месте. Мой друг из действующего агентства снабдил меня данными и кейсами реальных клиентов, и тут засквозило понеслось.
Получается довольно интересно: Azure SQL + dbt + Github Actions + Metabase.

Читать дальше →
Total votes 10: ↑10 and ↓0+10
Comments8
1

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Registered
Activity

Specialization

Data Engineer, Database Architect