Как стать автором
Обновить

Визуализация статистики о том, что и так все знают

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров15K
Всего голосов 28: ↑27 и ↓1+28
Комментарии11

Комментарии 11

Спасибо за статью. Визуализации залипательные. Да, я тот самый клиент, который делает импульсивные покупки в категории дом и ремонт в 4 утра ?

А если серьезно, то вот что я хотел узнать — на гитхабе не увидел файла с данными. Он там появится когда-нибудь?

Рад, что попал в такую точку с этой категорией!

По поводу данных - в том виде, в котором вы сможете сами воссоздать визуализацию с конкретно этими цифрами, я не буду выкладывать файл. Возможно, вечером я залью файл с синтетическими данными, чтобы можно было нагляднее разобрать работу скрипта и подогнать его под свои нужды ??

Предложение для развития:

  1. Привести визуализацию к абсолютным значениям, чтобы можно было объем транзакций оценить глядя на график

  2. Добавить, например, в виде "толщины" колбасы - количество транзакций :)

  3. В этом случае получится оценить и объем, и число транзакций в категории

  4. Если разделить категории на "кучи"(node heaps) и в качестве ребра к1->к2 использовать транзакцию в к2 следующую за транзакцией в к1, и уложить граф с помощью метода укладки вроде Force Plot - можно будет показать динамику перехода расходов :)

Спасибо за идеи!

Первые три пункта, к сожалению, придется отменить, потому что я не могу раскрывать абсолютные значения в силу NDA. Если же говорить про графы, то это довольно классный поинт. Спасибо! :)

Отсюда логичный вывод бытовой логики — если хотите поменьше стоять в очередях, закупайтесь днём.

Нет, как раз отсюда — совсем не логичный. Чтобы такое говорить, надо ещё и общее количество операций на каждый "кадр" знать, хотя бы в относительной величине. Сейчас вполне может быть, что в ваши "днём" 15x операций, а "вечером" всего 6x. И тогда в супермаркетах будет вечером меньше людей.

Как вариант, плясать от отметки с самым минимальным количеством операций: для него поделить 100% на категории, как сейчас, а на следующих временных кадрах уже увеличивать или уменьшать. Да, сумма будет больше 100%, потому что 100% — минимальное количествооопераций

А ещё выгружали просто по таблице с операциями или как-то фильтровали по городу? У вас часовые пояса не намешаны?

Сейчас все выводы выглядят очень плохо с точки зрения обоснований, хоть и гифки красивые

Спасибо за статью!

Интересно было узнать про этот тип диаграмм и Data-журналистике.

Различие между исследованием Nathan Yau и Вашим исследованием в выборе категорий для анализа в том, что:
- Nathan Yau анализирует timespent занятия
- Вы анализируете transactions
Timespent имеет протяжённость, поэтому кружки залипают на месте долгое время. А transactions - точечные события, в которых невозможно находиться долго. Почувствуйте разницу между "заправить машину" и "Работать".

Поэтому точки на Вашей диаграмме скачут, а на диаграмме Nathan формируют устойчивые кластеры. Подозреваю, что ваши матрицы поминутных вероятностей переходов содержат намного меньше нулей, чем в его случае.

Привет!

Спасибо за обратную связь. Да, все так – в исследовании Nathan Yau действительно происходит работа с Timespent, поэтому мы получаем, что получаем. Над точечностью и продолжительностью я задумывался. Хотелось, чтобы точки скакали менее хаотично, перебегая между категориями по факту изменения. Если присмотреться, то изменения зачастую происходят плавно (не берем в учет транспорт, который любит прыгать).

Ваш комментарий полностью справедлив :)

Спасибо за статью

Интересно.

А как-то учитывалось то, что за развлечения и транспорт обычно платят сильно заранее - проездной, билет в клуб/концерт, они заранее приобретаются. А также, частая оплата наличкой некоторых категорий - например, такси, подарки (красота)

Шикарная динамическая инфографика. А где можно ещё про такое почитать/узнать, про инструменты для создания, типы/форматы и теоретические базы по подготовке данных для них?

Спасибо за статью и работу! На какой бы график я ни посмотрел, везде как будто одно и тоже – супермаркеты на первом месте :) У Натана читается история на графике, у вас, к сожалению, нет, и обилие графиков только затрудняет построить связь, но как начало работы – это все равно круто. Было бы наглядней распределение по часам всех категорий на stacked area chart (или линиями, с нормирование и без), где ось х – время, а у – доля (или абс значения). Только анимации не получилось бы красивой. Или построить множество а-ля спарклайнов, сетку, чтобы увидеть, в какое время категория популярна. А потом эту инфу (+подробней о потребителях) продавать, например, рекламным агентствам, чтобы они подстраивали рекламу под время покупок.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий