Vitko17 авг 2009 в 11:49

Создаем OLAP куб. Часть 1

3 мин

169K

SQL *

+29

Комментарии 21

ahat 18 авг 2009 в 05:06

я только сейчас понял что тело «оборачивается переменными».
с нетерпением жду продолжения

mezastel 18 авг 2009 в 05:39

Жаль что данные случайны — думаю многим было бы интересно пOLAPать реальную статистику Хабра.

ahat 18 авг 2009 в 06:25

да. был бы признателен за реальный пример.
у меня просто есть данные вида
дата — дата — дата — факт — факт — факт…
работаю сводными таблицами… но очень хочется увидить все это в OLAPe как оно и с чем едят.
и кстати плусующим… помогите человеку перенести из SQL в OLAP.

morbid 20 авг 2009 в 05:16

«дата — дата — дата — факт — факт — факт» — это как? OLAP — это тип информационных систем. SQL — язык такой. OLAP система вполне может выполнять sql- запросы.

StUtk 18 авг 2009 в 06:54

Спасибо! Интересно.
Жду продолжения...)

Setti 20 авг 2009 в 08:32

Ипическая сила! Вот это круто! Спасибо большое.

GodSon 20 авг 2009 в 08:38

интересно продолжение… если окажется реально удобным надо будет переписать сбор статистики на проекте :)

spxnezzar 20 авг 2009 в 08:39

Очередной раз спасибо за просвещение… теперь хоть в вики заглянул чтобы посмотреть что такое OLAP

ua1maks 20 авг 2009 в 08:41

хорошая статья, кратко и понятно
только я бы по больше раскрыл суть измерений, в частности, иерархические, так как в основном то они и используются

Vitko 20 авг 2009 в 11:26

Иерархии полностью раскроются во время построения куба, хотя таблица DimTime уже сейчас «приоткрывает» нам конечный вид иерархии времени (год->месяц->день). Дальше — круче!

N_F 20 авг 2009 в 15:06

Звезда, снежинка — все это забавно, конечно =)
Но заметьте, ведь строить таким образом многомерные кубы в системе, в которой количество измерений заранее в принципе неизвестно, непреемлемо. Это не есть хороший метод, ИМХО.
Да и, думаю, вообще неинтересно и уныло использовать такие методы. Я хочу сказать, что много лучше было бы строить кубы на основе метаданных измерений, количество которых может быть произвольным, без использования таблицы для каждого измерения. А данные банально храняться в одной таблице, к которой обращаемся с помощью сгенерированных на основе взаимного расположения измерений и выбранных в них элементах SQL запросов.

morbid 20 авг 2009 в 16:59

И при каждом запросе субд выполняет full scan одной большой таблицы?

Vitko 21 авг 2009 в 00:11

Забегая наперед, скажу, что, как минимум, начиная с Analysis Services 2005 — это стало возможно. Другое дело, что не зная наперед о структуре ваших данных, куб не сможет преагрегировать значения, а также вы не сможете эфективно использовать кэш сервера. В результате, если построить куб на чисто «виртуальных» метаданных, то выгоды в скорости запросов будут совсем небольшие (для небольших измерений) или их совсем не будет (если размеры измерений превосходят 2-3 миллиона записей). Но, я часто вижу использование подобных «виртуальных» измерений на продакшн системах, особенно для маленьких, динамических измерений (порядка 10-100 членов).

dicos 21 авг 2009 в 03:06

Как я понял, из реальной базы данных при помощи представлений можно сделать «звезду» или «снежинку». Но насколько этот подход рационален?

Vitko 21 авг 2009 в 03:47

Смотря с какой стороны посмотреть. Это, однозначно, экономит вам дисковое пространство, но лимитирует вас в гибкости и скорости загрузки данных в куб. Например, если вам нужно каким-то хитрым образом «очистить» данные перед загрузкой, ваше представление может не справится с задачей. Или если само представление будет очень сложным с точки зрения запроса, загрузка данных в куб будет занимать много времени.
Еще как аргумент — очень часто данные в куб берутся из нескольких источников, что делает невозможным использование только представлений.

morbid 21 авг 2009 в 07:05

Бывает так, что к «Реально базе данных» вообще не подобраться. Например DBA какого нибудь ораклового сервера, где АБС-ка крутиться вам просто не разрешит создавать на реальной базе свои вьюшки и вообще выполнять какие-либо запросы. Мало ли чё вы там сджойните и как, а потом банк не сможет целый день работать. В таком случае можнл выгружать новые данные в плоские файлы, а оттуда забирать в хранилище.

ua1maks 21 авг 2009 в 13:39

все эти советы, зачем строить звезду снежинку, из разряда как поменьше работать не думаю о перформансе
метаданные=тормознутось
в этом и есть задача толкового разработчика — проектирование красивой схемы, а не драгэнддроп и тыканье мышкой

happybyte 22 авг 2009 в 09:44

Я честно говоря тоже не понял смысла сферического коня в вакууме — где же здесь куб.

Представляю, как быстро ляжет сервак, если данные о голосовании сделать из трех таблиц включая отдельную таблицу для таймстампа на 8 полей. Жесть!

morbid 26 авг 2009 в 10:56

Реально отдельная «таблица для timestampa» сильно сокращает нагрузку на сервер. А куб на картинке хорошо просматривается.

murich 2 июл 2015 в 11:27

Перезалейте изображения, пожалуйста.

dikiykot 15 мар 2018 в 14:50

Картинки не отображаются

Зарегистрируйтесь на Хабре, чтобы оставить комментарий