Pull to refresh

Comments 8

Ничего нельзя придумать. Всё, что ты придумываешь, либо было придумано до тебя, либо происходит на самом деле." -- Аркадий и Борис Стругацкие, "Хромая судьба".

Вообще я пытался не столько перевести, сколько развить мысли Тигани)

Намерение благое. Только оригинальная статья гораздо более объемная и подробная, даже с графиками, так что у вас скорее синопсис. Плюс реклама, куда же без нее в корпоративном блоге.

Рассуждения неверны

Давайте представим средний интернет-магазин с клиентской базой в тысячу человек. Пусть каждый из клиентов размещает новый заказ каждый день. И в каждом таком ордере находится сотня позиций. Даже в этом случае сайт генерирует меньше мегабайта новых данных в день. И только почти через 3 года их будет 1Gb. 

Да, магазин может хранить только историю заказов. Но, ведь

1) есть куда больше посетителей, которые пришли на сайт, но не заказали ничего, и даже не зарегистрировались. Надо понимать, почему они отвалились. На каком действии они закончили свой путь? Что отличает их от тех, которые заказали. Что не так с сайтом, что они уходят? Почему они принимают решение уйти?

2) зарегистрированный юзер как пришёл к заказу, и как не пришёл к заказу. Когда положил, и когда выложил с корзины (что повлияло на это). Когда скопировал название товара и потом вернулся, а когда не вернулся (скорее всего, нашёл у конкурента).

3) нюансы регистрации, оплаты. Где отвал идёт. Где пользователь тупит, проводя неадекватно много времени.

4) парсинг конкурентов. Как коррелирует разница цены с конкурентами с поведением пользователей, влияет ли это на конверсии на всех этапах? А если разбить при этом по группам товаров?

Чтобы на все эти вопросы получить ответ, надо где-то х100-х1000 данных от изначально предложенных трекать. Вот уже и бигдата подкралась

Все же, данные ж надо не только для бухгалтерии собирать, но, и, чтобы управленческие решения принимать

Я сознательно упростил и обобщил, чтобы было нагляднее. Но пример подразумевал и сопутствующие данные, а не только о продажах. Конечно, это вряд ли применимо к частному случаю, там больше нюансов и система получится сложнее и тд.

Соглашусь, что в зависимости от бизнес метрик увеличивается объем данных, которые нужно хранить и обрабатывать. Но несколько сомневаюсь, что в сравнении с примером они увеличатся на х100, если это не какой-то тяжелый тип данных, которые занимает много места.

из самой статьи нифига не понятно, но по сути я соглашусь. Принципы работы с данными таки не меняются, не зависимо от того биг там или не очень биг. Все теже ELT все те же дата модели, все те же KPI считаются, все так же работает принцип garbage in - garbage out. Только технологии новые, а суть та же

Буду стараться, чтобы было понятнее)

Sign up to leave a comment.