Обновить
44.53

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Аномалии электоральной статистики на выборах в Государственную Думу 2021 года по 125 ОИК

Время на прочтение10 мин
Охват и читатели7.8K

Статистика 377 участковых избирательных комиссий Королёва, Пушкино, Сергиева Посада, входящих 125 ОИК по голосованию 19 сентября 2021 года по выборам депутатов Государственной Думы РФ. Диаграммы явки и результативности партий, поиск критерия определения "предполагаемых" фальсификаций. Расчет скорректированного результата.

Три частично перекрывающихся кластера УИК.

Первый: явка 20-45% при доле Единой России 20-40%, условно его обозначим “гладкое голосование”.

Второй: явка 40-65% при доле Единой России 35-65%, условно его обозначим “административная мобилизация”.

Третий: явка более 65% при доле Единой России более 60%, условно его обозначим “предполагаемые грубые фальсификации”.

Читать далее

Веб приложение для анализа и визуализации результатов выборов в Государственную Думу в 2021

Время на прочтение2 мин
Охват и читатели3.5K

В результате выборов, которые завершились 19 сентября был сформирован большой массив данных, которые могут рассказать исследователям интресные истории. В статье представлен проект и прототип веб приложения для анализа и визуализации данных выборов в Государственную Думу 2021. В проекте используется фреймворк Django и набор библиотек : Pandas, Matplotlib. 

Читать далее

Будущее BI за открытым ПО

Время на прочтение7 мин
Охват и читатели10K

В то время, пока программное обеспечение до сих пор активно развивается в мире, становится ясно, что всё более и более значимую роль сегодня играет программное обеспечение с открытым исходным кодом.

В этой статье я объясню, почему будущее BI за открытым исходным кодом.

Читать далее

Материалы митапа для аналитиков: ценообразование, дашборд для SCRUM-команд, построение процессов

Время на прочтение2 мин
Охват и читатели4.2K

По традиции делимся материалами своего последнего митапа для аналитиков. В этот раз записи могут пригодиться тем, кто нанимает людей в команду и начинает выстраивать аналитические процессы, сотрудникам маркетплейсов и площадок для объявлений, а также SCRUM-мастерам. 

Читать далее

Как  делали онлайн карту объектов культурного наследия

Время на прочтение5 мин
Охват и читатели4.8K

В нашем рассказе речь пойдет про то, как мы реализовывали проект “Сохраним наследие” и делали онлайн карту памятников истории и культуры historymap.online. Это небольшая обзорная статья про наш проект. Она не содержит каких либо решений только общую концепцию. В дальнейшем планируем более детально описать этапы работ. 

Читать далее

Учим Kibana работать с Clickhouse (Ярослав Саган, Николай Нестеренко)

Время на прочтение19 мин
Охват и читатели8.8K


Сотрудники ECOMMPAY IT Ярослав Саган и Николай Нестеренко на конференции HighLoad++2019 рассказали об архитектурном решении для компактного хранения логов в ClickHouse.


На основе их доклада я сделал статью с расшифровкой, так как тема оказалась полезной.


(Ярослав Саган) Мы расскажем о том, как делали архитектуру для компактного хранения логов в ClickHouse; как прикручивали Kibana для просмотра логов, их фильтрации и аналитики. А также расскажем, с какими трудностями столкнулись и что у нас получилось в итоге.

Читать дальше →

Букварь материалиста

Время на прочтение10 мин
Охват и читатели18K

Мир вокруг нас порой поражает воображение, но часто доходит до того, что воображение поражает мозг, после чего он отказывается работать правильно. Все чаще вокруг себя я вижу примеры иррационального мышления, и ощущаю его влияние на мою жизнь. Результаты такого мышления в большинстве своем плачевны. 

Иррациональное мышление живет в идеалистическом мире, который живет в хаосе, не подчиняясь никаким законам. Ведь если для каждого закон свой, то закона нет ни для кого. Ловушка иррациональности работает сама собой, для ее захлопывания не нужно предпринимать никаких усилий. Намного проще не делать ничего, вместо того чтобы делать хоть что-то. 

Я захотел ответить на вопрос - почему люди отказываются от рационального мышления, и почему позволяют идеалистическому миру заменить материалистический. Эта статья была написана как сборник заметок в процессе изучения диалектики Гегеля, когда я решил заменить тяжелые для слуха и восприятия определения на более легкие и удобоваримые. В процессе написания этих заметок я начал делать выводы, на основе собственных суждений, что и стало основой этой статьи.

Мир вокруг нас порой

Потрясающе красиво: как отобразить десятки признаков в данных

Время на прочтение6 мин
Охват и читатели24K

Пока эксперты Хабра дегустируют наши курсы, пробуем алгоритм UMAP урожая 2018, раскрывающий тонкие оттенки данных высокой размерности.

Статья напомнит об этой прекрасной альтернативе t-SNE или PCA и поможет с визуализацией на флагманском курсе Data Science.

Читать далее

Мегаанализ распространения Covid-19 в Москве

Время на прочтение4 мин
Охват и читатели4.8K

В этой части целого цикла статей я представлю только статистические данные. В последующих главах будет выполнено предсказание тяжести заболевания, влияния загрязнения воздуха и даже сделано фундаментальное открытие, обобщающее закон Гомперца на различные тяжести течения Covid- 19.

Читать далее

Геоаналитика с помощью Python и открытых данных: пошаговое руководство

Время на прочтение11 мин
Охват и читатели57K

Геоаналитика с помощью Python: GeoPandas, folium, Uber H3, OSM + примеры как можно определять лучшие локации для поиска помещений под открытие кофейни (и не только).

Читать далее

(Любительский) временной анализ ДЭГ в Москве

Время на прочтение3 мин
Охват и читатели7.1K

По следам замечательной статьи "Что же не так с ДЭГ в Москве?" я решил проанализировать распределение голосов за разных кандидатов по времени. Результаты меня, мягко говоря, удивили.

Хочу смотреть графики

Q-Q Plots. От чайника до профессионала за один гайд

Время на прочтение8 мин
Охват и читатели68K

Как понять, что выборка данных принадлежит определенному распределению? Есть 2 метода: аналитический тест Колмогорова-Смирнова (тест Шапиро-Уилка для нормального) и графический метод при помощи графика квантиль-квантиль плот.

Чем так замечателен второй вариант? Он позволяет делать выводы, не основываясь на таких спорных показателях какp.value.

Графический метод является мощнейшим инструментом анализа, но как сказано в англоязычной статье википедии про Q-Q Plots, требует серьезных навыков для интерпретации. В данной статье я представляю дорожную карту пути к пониманию квантильных графиков.

Читать далее

Кластеризуем миллионы планов PostgreSQL

Время на прочтение4 мин
Охват и читатели4.9K

Как найти самые "горячие" запросы на вашем PostgreSQL-сервере? Поискать их в логе и проанализировать план или воспользоваться расширением pg_stat_statements.

А если в лог попадает миллион запросов за сутки?.. Тогда любое значение лимита pg_stat_statements.max окажется недостаточно велико, чтобы собрать правдивую статистику. Так давайте собирать эту статистику прямо с планов!

Но для некоторых сервисов СБИС нам в "Тензоре" производительность запросов к базе настолько важна, что auto_explain.log_min_duration приходится выставлять в единицы миллисекунд - и вот они, миллионы планов... Как не потеряться в них?

Читать далее

Ближайшие события

Битва за условное форматирование: дополняем стандартный функционал Power BI

Время на прочтение8 мин
Охват и читатели6.2K

Как использовать для визуализации такой замечательный инструмент, как условное форматирование, если ваши данные против этого? Как добавить в отчет красивую карту, если несколько точек "портят" всю картину? Как использовать статистические методы для настройки внешнего вида вашего отчета?

Я постарался рассказать об этом на примере выполнения задания для хакатона по Power BI.

Читать далее

Вывод SEO мета тегов title и description в виде визуальной структуры для каждой веб-страницы за один раз

Время на прочтение3 мин
Охват и читатели7K

Давно существует куча инструментов от Ahrefs, Mooz, Semrush и т.д., которые показывают главные мета теги для каждой страницы отдельно, в лучшем случае списком.

Но кто-нибудь видел инструмент, который выводит сразу все title и description за раз и показывает это в виде удобной иерархической визуальной структуры для всего веб-сайта?

Давайте по порядку ...

Читать далее

Создание отчетов в InterSystems Reports

Время на прочтение10 мин
Охват и читатели1.6K

Введение


! В связи с проблемами Хабра с отображением md текстов, вы можете ознакомится с полным текстом статьи на GitHub.


В мире огромных объемов данных как никогда важно сделать информацию доступной и легко интерпретируемой. С помощью InterSystems Reports (Logi Reports) вы можете легко и эффективно представлять сложные данные. InterSystems Reports – модуль InterSystems IRIS и InterSystems IRIS for Health. Это современное решение для создания и публикации отчетов, которое включает в себя:


  • Встроенную оперативную отчетность, которая может быть настроена как разработчиками отчетов, так и конечными пользователями.
  • Точное форматирование, позволяющее создавать специализированные формы, например, макеты для счетов, документов и т.д.
  • Макеты, обеспечивающие структуру для отображения как агрегированных, так и транзакционных данных.
  • Позиционирование заголовков, колонтитулов, агрегированных и подробных данных, изображений и вложенных отчетов.
  • Разнообразные типы отчетов.
  • Публикация и распространение отчетов, включая экспорт в PDF, XLS, HTML, XML и другие форматы файлов, печать и архивирование для соблюдения нормативных требований.
Читать дальше →

«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

Время на прочтение8 мин
Охват и читатели9.1K

Привет, Хабр! Меня зовут Владимир Герингер, я автор проекта «Футбол в цифрах». В нём я собираю футбольную статистику, анализирую данные, вывожу закономерности и рассказываю аудитории о самом интересном в виде коротких заметок и подробных статей. Данные — моё хобби, я собрал их достаточно, чтобы сделать выводы об основных проблемах российского футбола и предложить решения.

Как рост и вес футболистов влияют на игру

Красивое дерево PATRICIA (Реализация на C++)

Время на прочтение13 мин
Охват и читатели12K

Забытое, сложное, изумительное, красивое дерево со звуком ломающихся коленок.

Прострелить колени о патрицию

Анализ распределения временных интервалов между покупками на R

Время на прочтение10 мин
Охват и читатели5.1K

В статье я провожу ресёрч интервалов между собственными банковскими тратами за последние полгода и с помощью статистических методов в R пытаюсь понять, какому распределению эти интервалы подчиняются.

Я представляю:

1. Код на R для анализа любых временных интервалов.

2. Подбор экспоненциального и степенного распределения под данные с помощью метода максимального правдоподобия (MLE). Для экспоненциального я использую fitdistr() из пакета MASS, а для степенного fit_power_law() из пакета igraph.

3. Проверку данных на соответствие подобранному распределению с помощью теста Колмогорова-Смирнова. Я использую функцию ks.test() из пакета stats.

Читать далее

Как мы внедрили BI-платформу и начали развивать self-service аналитику

Время на прочтение7 мин
Охват и читатели8.2K

Всем привет! Меня зовут Дима. Я BI Engineering Manager в inDriver. В компанию я пришел в марте 2020 года развивать направление Business Intelligence. О том, как это происходило и происходит сейчас, с какими вызовами приходится сталкиваться и какие у нас планы на будущее по этому направлению, читайте далее в этой статье.

Читать далее