Продолжение разбора задачи сайзинга многоуровневого КХД.
Первая часть: "ч.1 Что сайзим"
ШАГ 0. Перед началом сайзинга специалистами IT выполняется анализ текущих систем (баз данных) и оцениваются отправные критерии сайзинга (годовой объем данных, прирост, объем исторических данных)
ШАГ 1. Общий объем исторических (начальных) данных
ШАГ 2. Объем ежедневной загрузки "сырых" данных в рабочий день
Важно! Размер КХД критически зависит от объема исходных данных.
ШАГ 3. Атрибуты КХД
Данный шаг является наиболее сложным и требует отдельного объяснения.
Допущения:
Столбец "Слой" - переключение 1 или 0 позволяет указать, будет ли данный слой участвовать в расчете общего объема КХД.
Столбец "Хранение истории трансформации и данных" - переключатель 1 или 0 определяет, потребуется ли хранение всей истории перетока данных между шагами алгоритмов и слоями хранилица в материализованном виде
Столбец "Коэффициент сжатия" - процент, определяемый блоком допущений и устанавливающий процент уменьшения объема данных при перемещении между слоями КХД. Процент применяется к результату полученному на предыдущем шаге с учетом процента заданного для слоя "8. Слой хранения истории трансформации данных".
Из приведенного примера следует, что при исходном притоке данных равным 80Gb в день, с использованием всех восьми слоев КХД включая 10% на логи трансормации и перетоков данных, на уровне материализованного хранения результатов потребуется 242Gb пространства.
ШАГ 4. Коэффициенты КХД
Прогнозирование КХД основывается еще на нескольких вспомогательных коэффициентах представленных ниже
Число месяцев детальных данных - это число месяцев для которых хранится детальная информация по всем слоям; остальные периоды хранятся только в части данных на слое "Слой витрин для формирования отчетности"
ШАГ 5. Итого (без учета ресурсов для системы BackUp'a)
Итого, вариант при хранении всех данных в перспективе 3-х лет без очистки КХД от неиспользуемой информации:
Вариант хранения только заданного числа месяцев в детализации (метрика 14); история только в виде данных слоя формирования отчетности
ИТОГО:
Представленный материал - это не мантра, это подход.
Понятно, что КХД может быть очень сложным, более того, часть слоев для разных блоков КХД может просто отсутствовать и в этом случае применить общее мерило не получится, НО!
Ничто не мешает делать сайзинги для разных блоков КХД формируя для них свой набор процентных значений сжатия данных включая или выключая слои, меняя параметры ретроспективного хранения данных или управляя уровнем детализации и историей для анализа получения агрегированных данных в отчете до уровня первичных документов.
PS: В материале не представлены все формулы используемые для расчета, полагаю, что вы легко сможете их повторить исходя из логического смысла выполняемых операций.