Статьи / Закладки / Профиль deech / Хабр

Саша Михайлов @deech

Аналитик данных

Профиль Публикации 2Комментарии 16Закладки 9

AlexTheOwl 20 авг 2020 в 13:23

Обзор гибких методологий проектирования DWH

15 мин

72K

Блог компании GlowByteХранилища данных*

Разработка хранилища — дело долгое и серьезное.

Многое в жизни проекта зависит от того, насколько хорошо продумана объектная модель и структура базы на старте.

Общепринятым подходом были и остаются различные варианты сочетания схемы “звезда” с третьей нормальной формой. Как правило, по принципу: исходные данные — 3NF, витрины — звезда. Этот подход, проверенный временем и подкрепленный большим количеством исследований — первое (а иногда и единственное), что приходит в голову опытному DWH-шнику при мысли о том, как должно выглядеть аналитическое хранилище.

С другой стороны — бизнесу в целом и требованиям заказчика в частности свойственно быстро меняться, а данным — расти как “вглубь”, так и “вширь”. И вот тут проявляется основной недостаток звезды — ограниченная гибкость.

И если в вашей тихой и уютной жизни DWH-разработчика внезапно:

возникла задача “сделать быстро хоть что-то, а потом посмотрим”;
появился бурно развивающийся проект, с подключением новых источников и переделкой бизнес-модели минимум раз в неделю;
появился заказчик, который не представляет как система должна выглядеть и какие функции выполнять в конечном итоге, но готов к экспериментам и последовательному уточнению желаемого результата с последовательным же приближением к нему;
заглянул менеджер проектов с радостной вестью: “А теперь у нас аджайл!”.

Или если вам просто интересно узнать как еще можно строить хранилища — вэлкам под кат!

Читать дальше →

+17

artemy_kravtsov 17 июн в 12:07

Краеугольные камни ClickHouse

Простой

21 мин

18K

Блог компании WBTECHSQL*Big Data*Хранение данных*Data Engineering*

Обзор

Привет, Хабр! Меня зовут Артемий Кравцов, я работаю инженером в Wildberries. Сегодня расскажу про то, что люблю – про ClickHouse. Моя цель – осветить некоторые ключевые особенности в архитектуре ClickHouse и в том, как он хранит данные.

Что такое куски и слияния? Как быть с частыми вставками? Как обновлять значения в строках? Что не так с точечными чтениями? Как сделать тяжёлый JOIN?

Статья рассчитана на тех, кто только знакомится с ClickHouse.

+37

timmyb32r 24 авг 2023 в 11:11

Change Data Capture (CDC) в Yandex Data Transfer: гид по технологии с примерами

Средний

18 мин

12K

Блог компании Yandex Cloud & Yandex InfrastructureIT-инфраструктура*Администрирование баз данных*Микросервисы*Системное администрирование*

В современных микросервисных архитектурах регулярно встречаются потребности в кешах, индексах полнотекстового поиска, репликах, а также в реактивном взаимодействии компонентов. Решать все эти задачи по отдельности — тот ещё вызов, но оказывается все эти задачи могут быть решены одним механизмом, и имя ему: Change Data Capture.

Меня зовут Тимофей Брунько, я разработчик Yandex Cloud. В этой статье я расскажу о том, как в теории и на практике работает CDC — Change Data Capture, или буквально «захват изменения данных», — и как наш сервис Yandex Data Transfer с поддержкой формата Debezium помогает пользователям решать задачи поставки данных, связанные с CDC. В конце статьи покажу реальные кейсы. Поехали.

Читать дальше →

+14

xtender 12 авг 2010 в 10:12

Версионность и история данных

5 мин

132K

Oracle*SQL*

При разработке баз данных зачастую требуется обеспечить поддержку версионности и хранения истории объектов. Например, у работника может изменяться должность, у должности в свою очередь может меняться оклад — в многомерном моделировании это называется Slowly changing dimensions(далее SCD) — редко изменяющиеся измерения, то есть измерения, не ключевые атрибуты которых имеют тенденцию со временем изменяться. Всего существует 6 основных типов(методов) SCD, которые определяют как история изменений может быть отражена в модели.

Подробнее...

+60

Dina_Simkina 23 авг 2021 в 09:38

Аналитики данных в Авито: ожидания и спектр задач

10 мин

22K

Блог компании AvitoTechКарьера в IT-индустрииВизуализация данных*Data Mining*

Привет, я Дина Симкина, директор по аналитике Авито. Я отвечаю за то, чтобы аналитика помогала бизнесу принимать правильные решения. В статье я расскажу, кого мы в компании называем аналитиками данных и чего от них ждём в зависимости от профессионального уровня.

+19

mongohtotech 5 авг 2021 в 20:25

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

10 мин

11K

Data Engineering*Google Cloud Platform*Машинное обучение*Big Data*Облачные вычисления*

Туториал

Рассказываем как перестать переживать о том, что вы не знаете Hadoop и вывести работу с данными в компании на новый уровень, как быстро и без больших затрат создать в аналитическое хранилище, наладить процессы загрузки туда данных, дать возможность аналитикам строить отчеты в современных BI инструментах и применять машинное обучение.

dimoobraznii 19 апр 2021 в 09:51

Amazon, Microsoft, Facebook, Tesla, Lyft — история поиска работы мечты, или «Вредные» советы для карьерного развития

22 мин

39K

IT-компанииИнтервьюКарьера в IT-индустрииУчебный процесс в ITПрограммирование*

Всем привет!

Я давно хотел поделиться советами и своим опытом к прохождению интервью и развитию карьеры. Пока думал про заголовок, вспомнилась книга из детства - "Вредные советы". Но в Отличие от Григория Остера, мои советы могут вам пригодится, они Полезные.

На хабре я описывал свой опыт про иммиграцию в Канаду, статья получилось популярной и полезной. В этой статье я хочу сфокусироваться на прохождении интервью и своих мыслей про карьерное развитие, затронуть вопросы лояльности работодателю, финансового вознаграждения, карьерного роста и карьерных перспектив и посмотреть рассмотреть +/- "работать на дядю" и "работать на себя".

Возможно вы найдете много оЧепяток. но, к сожалению, грамматика не мой конек, не то, что хождение по собеседованиям, где я как "рыба в воде".

Прежде чем перейти к компаниям типа Amazon и Microsoft, я хочу начать с простых примеров.

+66

111

nice_one 1 июн 2020 в 11:15

Стажировка аналитиком в Яндексе: разбор тестовых задач

14 мин

49K

Python*Алгоритмы*Карьера в IT-индустрии

Из песочницы

Привет, Хабр!

Однажды, штудируя очередную книгу по пресловутой Data Science, я пришел к мысли, что пора бы применить накопленные знания на практике и увидеть жизнь отдела аналитики своими глазами. К моему счастью, Яндекс запустил отбор на полугодичную стажировку по соответствующему направлению, и я не мог пройти мимо. Приём заявок 2020 уже закончился, поэтому в этой статье я с чистой совестью разберу задачи, которые Яндекс предлагал решить соискателям на первом этапе. Будет и код на Python. Спойлер: сложно, но интересно.

Читать дальше →

+15

DevilAngel 2 апр 2015 в 18:53

Нормализация отношений. Шесть нормальных форм

8 мин

1.5M

MySQL*SQL*

Из песочницы

В данной теме я затрону 6 нормальных форм и методы приведения таблиц в эти формы.

Процесс проектирования БД с использование метода НФ является итерационным и заключается в последовательном переводе отношения из 1НФ в НФ более высокого порядка по определенным правилам. Каждая следующая НФ ограничивается определенным типом функциональных зависимостей и устранением соответствующих аномалий при выполнении операций над отношениями БД, а также сохранении свойств предшествующих НФ.

Читать дальше →