Pull to refresh

Comments 14

С каких пор ogg это etl инструмент? Да и airflow это не etl инструмент по большому счету.

Не всегда вариант "набрать специалистов" правильный. Чаще наоборот. Это хорошо что если тот кто набирает сам специалист настоящий, а не думает что он специалист :) а то ведь как бывает: люди класса А нанимают людей класса А, а люди класса B нанимают людей класса С.

Вариант привлечения консалтинга более правильный с условием формирования собственной команды у момента выхода в пром.

Не всегда вариант "набрать специалистов" правильный. Чаще наоборот. Это хорошо что если тот кто набирает сам специалист настоящий, а не думает что он специалист :) а то ведь как бывает: люди класса А нанимают людей класса А, а люди класса B нанимают людей класса С.

Хорошее замечание, при написании статьи не думал про влияние человеческого фактора:) Тезис из статьи, что данный вариант "самый сложный" стоило бы чуть детальнее раскрыть.

Вариант привлечения консалтинга более правильный с условием формирования собственной команды у момента выхода в пром.

Если я правильно понял, в данном случае меньшие затраты при создании хранилища, но проблема дорогих обслуживания и доработки хранилища не решается.

Конечно решается при правильной организации процесса. вы не можете сформировать собственную команду по мановению волшебной палочки. Это будет процесс сильно растянутый во времени, если вы хотите набрать действительно квалифицированных специалистов, либо обучить с нуля. Готов ли бизнесс ждать? Взяв консалтинг у вас будет время набрать собственную команду или обучить ее с нуля например к выходу в опытно-промышленную эксплуатацию и передать ей все знания для этого необходимые силами того же консалтинга (условно вы это можете в договоре даже прописать).

Бизнес знать ничего не знает про хранилище - это техническая абстракция вроде :)
Обычно все начинается с одной базы данных, из которой программисты по запросу дергают какую-то аналитику для продуктов.

Потом при превышении порога загруженности программист меняется на аналитика.

Потом запросы аналитиков начинают влиять на прод, и их спихивают на стендбай/реплику прода с их запросами.

Ну а когда и эта история не прокатывает - олтп база начинает захлебываться - появляется оно - отдельное аналитическое хранилище.

Вопрос когда оно станет DWH и станет ли - остается.

Можно, конечно, пропустить все этапы становления и сразу начать использовать облачную базку с репликацией данных в нее - на любителя обвешаться елт процедурами до их реальной надобности.

Сейчас все стало еще сложнее/проще, на рынке миллион инструментов, которые говорят - только пушни в нас данные (или подключи сдк), и мы тебе без аналитика сделаем чо хошь - амплитуда, блумрич и т.д. и т.п.

Бизнес знать ничего не знает про хранилище - это техническая абстракция вроде :)

Тут и соглашусь, и нет. Практически во всех крупных компаниях бизнес знает, что такое хранилище и с чем его едят (правда зависит от сегмента бизнеса). А также количество МСБ, знакомого с данным понятием, увеличивается. Возможно, они знакомы с другими терминами/синонинами: озеро данных, аналитиская платформа, BI, анализ данных или продуктовая аналитика. Если никто в компании никогда не встречался с подобными терминами, скорее всего им хранилище и не нужно (на текущий момент развития организации).

Что касается вопросов, кто как приходит к пониманию о необходимости хранилища или кому в принципе это нужно, это отдельная и очень интересная тема. Которая еще и затрагивает становление политики компании в отношении самих данных и работы с ними.

Про приведенные два инструмента, я, к сожалению, с ними не встречался. Но знакомые мне инструменты не позволяют минимальными усилиями загрузить и разложить данные в определенную структуру. Чаще всего подобные инструменты позволяют просто консолидировать данные, но работать с сырыми данными сложно. Особенно, когда объем отчетности и показателей растет.

А про "сделать без аналитика что угодно", я если честно совсем не верю:) Только если есть предварительно настроенные типизированные в продукте отчеты.

А теперь представьте что у вас не "одна база" для которой достаточно stand-by "под запросы аналитиков", а 30-50.

Если тратить меньше времени на подготовку данных, и больше - на их анализ, то на выходе будут красивые отчеты в бесполезной и/или недостоверной информацией.

Имело в виду, что тратить на подготовку данных меньше времени без потери качества :)

В хранилище данные за t-1 , т.е. за вчерашний день. А бизнесу нужны данные онлайн, t0. Что делать?

Настроить стриминг, как один из вариантов.

В статье я помечал, что это та отдельная ситуация, когда автоматизировать процесс скорее всего не получится.

Иногда данные хранилища отличаются от первичной системы. В ней удалили запись, в хранилище нет. В первичке отменили удаление, а в хранилище запись числится удалённой. А бывает, что в хранилище таблица пустая - произошла ошибка при синхронизации. Как можно доверять хранилищу?

Можно доверять, если настроена проверка качества данных, а также хранилище создавали квалифицированные кадры :) Обе описанные проблемы вполне решаемы

Даже самые квалифицированные люди иногда делают ошибки. Предположим, из 5000 таблиц неверно перенеслись 3. Как обычному аналитику проверять качество данных и находить такие таблицы?

Sign up to leave a comment.

Articles