PavelKhamrin Mar 10 2023 at 16:29

Хранилище данных пугает бизнес: проблемы DWH для бизнеса

Easy

8 min

8.5K

Data Engineering * Data storage *

From sandbox

Comments 14

220-380 Mar 10 2023 at 22:17

Молодец! Но многовато текста.

EvgenyVilkov Mar 11 2023 at 13:06

С каких пор ogg это etl инструмент? Да и airflow это не etl инструмент по большому счету.

Не всегда вариант "набрать специалистов" правильный. Чаще наоборот. Это хорошо что если тот кто набирает сам специалист настоящий, а не думает что он специалист :) а то ведь как бывает: люди класса А нанимают людей класса А, а люди класса B нанимают людей класса С.

Вариант привлечения консалтинга более правильный с условием формирования собственной команды у момента выхода в пром.

PavelKhamrin Mar 16 2023 at 19:54

Не всегда вариант "набрать специалистов" правильный. Чаще наоборот. Это хорошо что если тот кто набирает сам специалист настоящий, а не думает что он специалист :) а то ведь как бывает: люди класса А нанимают людей класса А, а люди класса B нанимают людей класса С.

Хорошее замечание, при написании статьи не думал про влияние человеческого фактора:) Тезис из статьи, что данный вариант "самый сложный" стоило бы чуть детальнее раскрыть.

Вариант привлечения консалтинга более правильный с условием формирования собственной команды у момента выхода в пром.

Если я правильно понял, в данном случае меньшие затраты при создании хранилища, но проблема дорогих обслуживания и доработки хранилища не решается.

EvgenyVilkov Mar 17 2023 at 07:29

Конечно решается при правильной организации процесса. вы не можете сформировать собственную команду по мановению волшебной палочки. Это будет процесс сильно растянутый во времени, если вы хотите набрать действительно квалифицированных специалистов, либо обучить с нуля. Готов ли бизнесс ждать? Взяв консалтинг у вас будет время набрать собственную команду или обучить ее с нуля например к выходу в опытно-промышленную эксплуатацию и передать ей все знания для этого необходимые силами того же консалтинга (условно вы это можете в договоре даже прописать).

barloc Mar 12 2023 at 12:56

Бизнес знать ничего не знает про хранилище - это техническая абстракция вроде :)
Обычно все начинается с одной базы данных, из которой программисты по запросу дергают какую-то аналитику для продуктов.

Потом при превышении порога загруженности программист меняется на аналитика.

Потом запросы аналитиков начинают влиять на прод, и их спихивают на стендбай/реплику прода с их запросами.

Ну а когда и эта история не прокатывает - олтп база начинает захлебываться - появляется оно - отдельное аналитическое хранилище.

Вопрос когда оно станет DWH и станет ли - остается.

Можно, конечно, пропустить все этапы становления и сразу начать использовать облачную базку с репликацией данных в нее - на любителя обвешаться елт процедурами до их реальной надобности.

Сейчас все стало еще сложнее/проще, на рынке миллион инструментов, которые говорят - только пушни в нас данные (или подключи сдк), и мы тебе без аналитика сделаем чо хошь - амплитуда, блумрич и т.д. и т.п.

PavelKhamrin Mar 16 2023 at 19:25

Бизнес знать ничего не знает про хранилище - это техническая абстракция вроде :)

Тут и соглашусь, и нет. Практически во всех крупных компаниях бизнес знает, что такое хранилище и с чем его едят (правда зависит от сегмента бизнеса). А также количество МСБ, знакомого с данным понятием, увеличивается. Возможно, они знакомы с другими терминами/синонинами: озеро данных, аналитиская платформа, BI, анализ данных или продуктовая аналитика. Если никто в компании никогда не встречался с подобными терминами, скорее всего им хранилище и не нужно (на текущий момент развития организации).

Что касается вопросов, кто как приходит к пониманию о необходимости хранилища или кому в принципе это нужно, это отдельная и очень интересная тема. Которая еще и затрагивает становление политики компании в отношении самих данных и работы с ними.

Про приведенные два инструмента, я, к сожалению, с ними не встречался. Но знакомые мне инструменты не позволяют минимальными усилиями загрузить и разложить данные в определенную структуру. Чаще всего подобные инструменты позволяют просто консолидировать данные, но работать с сырыми данными сложно. Особенно, когда объем отчетности и показателей растет.

А про "сделать без аналитика что угодно", я если честно совсем не верю:) Только если есть предварительно настроенные типизированные в продукте отчеты.

EvgenyVilkov Mar 17 2023 at 07:31

А теперь представьте что у вас не "одна база" для которой достаточно stand-by "под запросы аналитиков", а 30-50.

CyaN Mar 16 2023 at 06:37

Если тратить меньше времени на подготовку данных, и больше - на их анализ, то на выходе будут красивые отчеты в бесполезной и/или недостоверной информацией.

PavelKhamrin Mar 16 2023 at 19:27

Имело в виду, что тратить на подготовку данных меньше времени без потери качества :)

MilPavel Mar 22 2023 at 14:36

В хранилище данные за t-1 , т.е. за вчерашний день. А бизнесу нужны данные онлайн, t0. Что делать?

PavelKhamrin Mar 23 2023 at 07:05

Настроить стриминг, как один из вариантов.

В статье я помечал, что это та отдельная ситуация, когда автоматизировать процесс скорее всего не получится.

MilPavel Mar 23 2023 at 14:08

Иногда данные хранилища отличаются от первичной системы. В ней удалили запись, в хранилище нет. В первичке отменили удаление, а в хранилище запись числится удалённой. А бывает, что в хранилище таблица пустая - произошла ошибка при синхронизации. Как можно доверять хранилищу?

PavelKhamrin Mar 23 2023 at 15:53

Можно доверять, если настроена проверка качества данных, а также хранилище создавали квалифицированные кадры :) Обе описанные проблемы вполне решаемы

MilPavel Mar 23 2023 at 19:47

Даже самые квалифицированные люди иногда делают ошибки. Предположим, из 5000 таблиц неверно перенеслись 3. Как обычному аналитику проверять качество данных и находить такие таблицы?