Обновить
44.28

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Карта дизайна организационных систем и бизнес-процессов

Время на прочтение3 мин
Охват и читатели9.5K

Приветствую, уважаемые хабровчане. Это мой первый пост на этой площадке, хотя в качестве читателя с вами уже, наверное, 10 лет. Я не являюсь специалистом в IT, хотя имел отношение к запуску небольшого количества стартапов. Можете называть меня практикующим теоретиком – запускаю продукты, занимаюсь управлением проектами, помогаю компаниям улучшать процессы, внедрять всякие гибкие управленческие штуки, немного преподаю в ВШЭ. Но всё это делаю не столько, чтобы заработать денег, а чтобы удовлетворить собственное любопытство в том, как устроены системы и держать голову в тонусе.

Этот пост был написан пару лет назад на vc.ru, в правилах сообщества не запрещено, публиковать контент с других площадок. С вашего позволения, здесь опубликую его снова, но с небольшими корректировками. Надеюсь, найдёте материал и инструмент, о котором пойдёт речь, полезными.

Читать далее

SQL для аналитики — рейтинг прикладных задач с решениями

Время на прочтение11 мин
Охват и читатели58K

Привет, Хабр! У кого из вас black belt на sql-ex.ru, признавайтесь? На заре своей карьеры я немало времени провел на этом сайте, практикуясь и оттачивая навыки. Должен отметить, что это было увлекательное и вознаграждающее путешествие. Пришло время воздать должное.

В этой публикации я собрал топ прикладных задач и мои подходы к их решению в терминах SQL. Каждая задача снабжена кусочком данных и кодом, с которым можно интерактивно поиграться на SQL Fiddle.

Читать далее

Google Books Ngram Viewer как инструмент для ретроспективных исследований

Время на прочтение8 мин
Охват и читатели13K

Для принятия правильных решений в различных жизненных ситуациях очень полезно иметь адекватную модель мира. В частности, бывает полезна возможность сопоставить популярность различных предметов и оценить динамику этой популярности. Например, вы издатель, и вам предлагают перевести и издать книгу по языку программирования Fortran. Его ведь всё ещё используют, издаётся англоязычная литература, а у нас давно ничего не выходило. Или, скажем, по языку Julia. Книжек по актуальной версии языка на русском ещё нет. Можно взять какую-нибудь самую популярную английскую, перевести, издать и сорвать куш. В подобных ситуациях полезно иметь возможность подглядеть, какова популярность этих языков относительно других и какова динамика этой популярности. Пример с языками программирования приведён просто для наглядности, подобные задачи возникают и при анализе популярности различных программ, технологий, научных концепций.

Читать далее

На фондовом рынке США сформировался пузырь небывалых размеров

Время на прочтение13 мин
Охват и читатели165K

Оценки напрочь оторвались от фундаментального анализа, мультипликаторы находятся на исторических максимумах, скорость эмиссии ценных бумаг зашкаливает — и всё это сопровождается безумно спекулятивным поведением инвесторов. Большой кризис неизбежен.

Читать далее

Как создавать красивые карты с помощью Python

Время на прочтение4 мин
Охват и читатели26K
Мне всегда нравились карты городов, и несколько недель назад я решил создать свою собственную, художественную версию. Немного погуглив, я обнаружил крутое руководство, написанное Фрэнком Себальосом. Оно увлекательно и полезно, но я предпочитаю более подробные/реалистичные карты-схемы. Из-за этого я решил создать свою собственную версию карт. Итак, давайте посмотрим, как мы можем создавать красивые карты с помощью Python и данных OpenStreetMap.

Приятного чтения!

14 практических советов по использованию Tableau

Время на прочтение7 мин
Охват и читатели48K
Всем привет, меня зовут Меркурьев Михаил, я продуктовый аналитик в ManyChat. Год назад мы решили использовать Tableau как основной BI инструмент в компании и столкнулись с рядом проблем, касающихся того, что нужно наладить эффективную работу с инструментом для аналитиков, менеджеров продукта и других стейкхолдеров.

В этой статье я собрал мой личный топ советов при использовании Tableau. Многими из них я пользуюсь регулярно, копируя куски кода или освежая в памяти подход. Надеюсь, эта статья будет особенно полезна тем командам, которые только настраивают Tableau — некоторые из приёмов нужно сделать один раз и это сильно упростит жизнь. Я сам очень бы хотел найти такой гайд в начале нашего пути.

Пару слов о структуре. Сначала я расскажу про общие подходы, которые мы выработали для Tableau Server, а потом покажу конкретные хаки, которые, возможно, сделают вашу жизнь лучше. Начнем!



Виртуальный аналитик — будущее BI?

Время на прочтение10 мин
Охват и читатели6.4K

Наверное, когда появились первые дашборды, это выглядело как магия. Не нужно больше ждать, пока кто-то подготовит отчёт, можно просто интерактивно работать с данными, хоть и в определенных рамках. А какой следующий шаг?

Представьте, что у вас есть контакт в телеграме, которому можно просто отправить голосовое сообщение типа: "Что у нас там с планом продаж в Казани?" или "Сколько мы потратили на смузи транспорт в прошлом месяце?" и он сразу пришлет ответ. Круто?

В этом посте мы расскажем, как мы создавали виртуального аналитика ViTalk, с какими проблемами столкнулись и как их решали, а еще про то, что у него находится под капотом.

Читать далее

Как предотвратить появление неверных данных в ваших идеальных конвейерах

Время на прочтение6 мин
Охват и читатели2.1K

Для команд специалистов DS сломанные конвейеры данных, шаткие информационные панели и пожарные учения в 5 часов утра – это норма, особенно потому, что рабочие процессы принимают всё больше и больше данных из разрозненных источников. Черпая вдохновение в разработке программного обеспечения, мы называем это явление простоем данных – но как упреждающе, в первую очередь предотвратить появление плохих данных?

В этой статье я поделюсь тремя ключевыми стратегиями, которыми пользуются некоторые лучшие компании Data Science, чтобы восстановить доверие к своим данным.
Приятного чтения!

Сборка, роутинг и обслуживание метрик

Время на прочтение9 мин
Охват и читатели3.9K

Введение


Неотъемлемой частью любой сложной системы является телеметрия (мониторинг). Она включает в себя сборку логов, сборку различных метрик из разных частей системы, межсервисную трассировку вызовов и в самых критических случаях, если это возможно, — ручное взаимодействие. В этой статье мы остановимся только на процедуре сбора метрик. Возможно, кому-то наш подход покажется архаичным и устаревшим, однако для нас он, как говорится, battleprоven и хорошо себя зарекомендовал в наших условиях.



В основе наших метрик лежит хорошо известная система Graphite. Здесь мы не будем останавливаться на базовых вещах его конфигурирования и первичной настройки, для этого существует достаточное количество материалов в интернете, скажем лишь то, что от самого проекта Graphite у нас нет практически ничего :). Все его компоненты заменены на более производительные аналоги. В этом, кстати, большое достоинство Graphite: он построен из кубиков, которые легко друг с другом комбинировать и заменять. Остановимся лишь на проблемах, с которыми мы столкнулись в ходе эксплуатации.
Читать дальше →

EPY4еский сервер ASUS с процессором AMD и RAID на DC1000M – что ты можешь?

Время на прочтение8 мин
Охват и читатели12K
Привет, Хабр! Трудности в выборе сервера для задач компаний, как правило, возникают и у опытных и у начинающих системных администраторов. Ассортимент поставок комплектующих внутри готового решения зачастую едва умещается на нескольких листах. А сервера на базе процессоров AMD EPYC и вовсе считаются диковинными зверями в стойках. Давайте посмотрим, что из себя представляет сервер ASUS RS500A-E10-RS12U в тандеме с накопителями Kingston DC1000M/960G.


Читать дальше →

Новый подход к просмотру логов

Время на прочтение7 мин
Охват и читатели38K

Одно время, приходилось много работать с логами. Они могли быть большими и находиться на разных серверах. Требовалось не найти что-то конкретное, а понять почему система ведёт себя не так как надо. По некоторым причинам, лог-агрегатора не было.

Хотелось иметь просмотрщик логов, позволяющий, в любой момент, открыть любой файл, без скачивания на локальную машину, как команда less в linux консоли. Но при этом, должна быть удобная подсветка текста, как в IDE, и фильтрация событий по различным параметрам. Фильтрация и поиск должны работать по событиям в логе, а не по строкам, как grep, это важно когда есть многострочные записи, например ошибки со стектрейсами. Так же должна быть возможность просматривать записи сразу из нескольких файлов на одной странице, смёржив их по таймстемпу, даже если файлы находятся на разных нодах.

Читать далее

Как изменился Datalore за 2020 год: мощная онлайн-среда для Jupyter-ноутбуков

Время на прочтение3 мин
Охват и читатели6.8K

Привет, Хабр!


Datalore — это мощная онлайн-среда для Jupyter-ноутбуков, разработанная в JetBrains. Здесь мы собрали описание самых важных обновлений Datalore за прошедший год.

Читать дальше →

ТАСС заявил о 30% росте заказов Ozon Express после январских каникул. У SellerFox другие данные

Время на прочтение2 мин
Охват и читатели2.1K

По заявлению ТАСС количество заказов в сервисе быстрой доставки Ozon Express с 12 по 18 января выросло на 30% в недельном сопоставлении. Мы с помощью сервиса аналитики и парсинга маркетплейсов проанализировали заказы за этот период и у нас получились совсем другие данные.

Ozon Express - сервис быстрой доставки свежих продуктов питания, бакалеи, детских товаров, товаров для дома и зоотоваров по Москве и Подмосковью. Экспресс-доставка курьером — от 40 до 60 минут. Курьерская доставка — от 1,5 до 4,5 часов.

"Количество заказов в сервисе быстрой доставки Ozon Express за прошедшую неделю выросло на 30% в недельном сопоставлении — на рост спроса повлияли наступившие в Москве холода. Пики заказов пришлись на самые холодные дни недели — субботу и воскресенье."Ozon пресс-служба.

Мы уже писали, что категория Ozon Express показала на новогодних каникулах очень существенный рост и количество заказов по отношению к декабрю 2020 года выросло почти в 4 раза. Поэтому нас так заинтересовало заявление ТАСС - неужели рост продолжился и дальше и холода могли так повлиять на количество заказов? Мы проверили.

"Количество заказов в сервисе быстрой доставки Ozon Express с 12 по 18 января выросло на 30% в недельном сопоставлении"-ТАСС

Для этого мы сравнили заказы за 2 периода 12-18 января и 5-11 января. Также внимательнее посмотрели на количество заказов в выходные 15-16 января.

Читать далее

Ближайшие события

Сквозная Аналитика на Azure SQL + dbt + Github Actions + Metabase

Время на прочтение12 мин
Охват и читатели8.9K

Title


Привет, Хабр! Меня зовут Артемий Козырь.


За последние годы у меня накопился довольно обширный опыт работы с данными и тем, что сейчас называют Big Data.


Не так давно также разгорелся интерес к сфере интернет-маркетинга и Сквозной Аналитики, и не на пустом месте. Мой друг из действующего агентства снабдил меня данными и кейсами реальных клиентов, и тут засквозило понеслось.
Получается довольно интересно: Azure SQL + dbt + Github Actions + Metabase.

Читать дальше →

Новый график на Moiva.io с данными от #StateOfJS

Время на прочтение1 мин
Охват и читатели1.2K

Автор популярных ежегодных отчетов #StateOfJS и #StateOfCSS Sacha Greif (он же автор VulcanJS и Sidebar) обратился ко мне с идей включить данные отчета на Moiva.io.

Я ответил "Конечно!"

Читать далее

В поисках идеального хранилища документов

Время на прочтение5 мин
Охват и читатели10K

Все началось в 2001 году, когда интернет только начинал свое победное шествие, и появился неограниченный доступ к огромной библиотеке знаний. Мы жадно скачивали электронные версии книг и статей. Всё! Всё, что что могло быть полезным в самообразовании. В первую очередь нас, конечно, интересовало программирование, электроника и механика, но биологией, медициной, химией и прочим мы тоже не брезговали. Таким образом, у каждого стала формироваться персональная электронная библиотека.

Но мы быстро столкнулись с проблемой систематизации знаний. Выяснилось, что файловая система не очень подходит для этих целей. Первым признаком стал процесс дублирования каталогов.

Читать далее

Стилометрия, или как отличить Акунина от Булгакова с помощью 50 строк кода?

Время на прочтение7 мин
Охват и читатели12K

Привет, Хабр.

Довольно интересным направлением "прикладной статистики" и NLP (Natural Languages Processing а вовсе не то что многие сейчас подумали) является анализ текстов. Интересно, что появилось это направление задолго до первых компьютеров, и имело вполне практическую цель: определить автора того или иного текста. С помощью ПК это, впрочем, гораздо легче и удобнее, да и результаты получаются весьма интересные. Посмотрим, какие закономерности можно выявить с помощью совсем простого кода на Python.

Для тех кому интересно, продолжение под катом.

Читать далее

Визуализация пересечений и перекрытий с помощью Python

Время на прочтение6 мин
Охват и читатели15K

Изучение вариантов решения одной из самых сложных задач визуализации данных


Преобладающая задача в любом анализе данных — сравнение нескольких наборов чего-либо. Это могут быть списки IP-адресов для каждой целевой страницы вашего сайта, клиенты, которые купили определённые товары в вашем магазине, несколько ответов из опроса и многое другое.

В этой статье воспользуемся Python для изучения способов визуализации перекрытий и пересечений множеств, наших возможностей, а также их преимуществ и недостатков.


Диаграмма Венна
Приятного чтения!

Поиск замены депозита в облигациях с учетом того, что с 1 января 2021 года все выплаты облагаются налогами

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели40K

Полгода назад, летом 2020 года я написал скрипт поиска ликвидных облигаций на Мосбирже (статья в закладках у 194 человек, рейтинг +45). Скрипт нужен для поиска облигаций, которые можно купить прямо сейчас с доходностью гораздо выше банковского вклада.

Сейчас, в начале 2021 года модифицировал прошлогодний скрипт, потому что проценты по вкладам так и остаются на очень низких уровнях, а с началом 2021 года ещё и изменения в налоговом кодексе РФ подоспели. 

Переписал код, убрав неактуальные данные о налоговых льготах, которые сейчас уже не работают и добавил возможность создавать облигационные лесенки. Под лесенкой имеется ввиду получение дохода как можно в большом числе месяцев, за счёт подбора облигаций с разными месяцами выплат.

Облигации как замена вклада в 2021 году

6 принципов эффективной визуализации данных

Время на прочтение6 мин
Охват и читатели17K

Ключевые принципы создания полезных и информативных графиков


Визуализация данных является важным этапом в процессе постижения науки о данных. Здесь вы представляете свои результаты и сообщаете о них в графическом формате, который является интуитивно понятным и лёгким для понимания.

Визуализация данных требует большой работы, большой труд по очистке и анализу уходит на перегонку и превращение грязных данных в красивые графики и диаграммы. Но даже с подготовленными данными всё равно приходится придерживаться определённых принципов или методологий, чтобы создать полезную, информативную графику.

Тем не менее при написании этой статьи я черпал вдохновение в книге Эдварда Тафта «Beautiful Evidence», которая содержит шесть принципов, посвящённых тому, как сделать графики данных полезными. Именно эти принципы отделяют полезные графики от бесполезных.

Эта статья также в значительной степени вдохновлена книгой Роджера Д. Пенга «Exploratory Data Analysis in R» Она доступна бесплатно на Bookdown, и вы можете прочитать её, чтобы узнать больше о EDA.

Давайте ближе познакомимся с этими принципами.


Пример визуализации данных на Our World in Data
Приятного чтения!