Визуализация данных *

Облекаем данные в красивую оболочку

СтатьиПостыНовостиАвторыКомпании

Canopus77 11 окт 2021 в 17:16

Аномалии электоральной статистики на выборах в Государственную Думу 2021 года по 125 ОИК

10 мин

7.8K

Открытые данные * Визуализация данных * Статистика в IT

Из песочницы

Статистика 377 участковых избирательных комиссий Королёва, Пушкино, Сергиева Посада, входящих 125 ОИК по голосованию 19 сентября 2021 года по выборам депутатов Государственной Думы РФ. Диаграммы явки и результативности партий, поиск критерия определения "предполагаемых" фальсификаций. Расчет скорректированного результата.

Три частично перекрывающихся кластера УИК.

Первый: явка 20-45% при доле Единой России 20-40%, условно его обозначим “гладкое голосование”.

Второй: явка 40-65% при доле Единой России 35-65%, условно его обозначим “административная мобилизация”.

Третий: явка более 65% при доле Единой России более 60%, условно его обозначим “предполагаемые грубые фальсификации”.

+15

zzzzbh 11 окт 2021 в 14:42

Веб приложение для анализа и визуализации результатов выборов в Государственную Думу в 2021

2 мин

3.5K

Python * Django * Открытые данные * Визуализация данных * Data Engineering *

Из песочницы

В результате выборов, которые завершились 19 сентября был сформирован большой массив данных, которые могут рассказать исследователям интресные истории. В статье представлен проект и прототип веб приложения для анализа и визуализации данных выборов в Государственную Думу 2021. В проекте используется фреймворк Django и набор библиотек : Pandas, Matplotlib.

+14

Vlad_BI_Developer 11 окт 2021 в 14:30

Будущее BI за открытым ПО

7 мин

10K

Карьера в IT-индустрииВизуализация данных * Open source *

Из песочницы

Перевод

В то время, пока программное обеспечение до сих пор активно развивается в мире, становится ясно, что всё более и более значимую роль сегодня играет программное обеспечение с открытым исходным кодом.

В этой статье я объясню, почему будущее BI за открытым исходным кодом.

anna_lesnykh 6 окт 2021 в 10:38

Материалы митапа для аналитиков: ценообразование, дашборд для SCRUM-команд, построение процессов

2 мин

4.2K

Блог компании AvitoTechВизуализация данных * Конференции

По традиции делимся материалами своего последнего митапа для аналитиков. В этот раз записи могут пригодиться тем, кто нанимает людей в команду и начинает выстраивать аналитические процессы, сотрудникам маркетплейсов и площадок для объявлений, а также SCRUM-мастерам.

geodezes 5 окт 2021 в 13:45

Как делали онлайн карту объектов культурного наследия

5 мин

4.8K

Визуализация данных *

Из песочницы

В нашем рассказе речь пойдет про то, как мы реализовывали проект “Сохраним наследие” и делали онлайн карту памятников истории и культуры historymap.online. Это небольшая обзорная статья про наш проект. Она не содержит каких либо решений только общую концепцию. В дальнейшем планируем более детально описать этапы работ.

+15

chemtech 5 окт 2021 в 07:49

Учим Kibana работать с Clickhouse (Ярослав Саган, Николай Нестеренко)

19 мин

8.8K

DevOps * Визуализация данных *

Сотрудники ECOMMPAY IT Ярослав Саган и Николай Нестеренко на конференции HighLoad++2019 рассказали об архитектурном решении для компактного хранения логов в ClickHouse.

На основе их доклада я сделал статью с расшифровкой, так как тема оказалась полезной.

(Ярослав Саган) Мы расскажем о том, как делали архитектуру для компактного хранения логов в ClickHouse; как прикручивали Kibana для просмотра логов, их фильтрации и аналитики. А также расскажем, с какими трудностями столкнулись и что у нас получилось в итоге.

Читать дальше →

+11

snakendead 1 окт 2021 в 13:52

Букварь материалиста

10 мин

18K

Алгоритмы * Визуализация данных * МозгЛогические игрыВизуальное программирование *

Из песочницы

Мир вокруг нас порой поражает воображение, но часто доходит до того, что воображение поражает мозг, после чего он отказывается работать правильно. Все чаще вокруг себя я вижу примеры иррационального мышления, и ощущаю его влияние на мою жизнь. Результаты такого мышления в большинстве своем плачевны.

Иррациональное мышление живет в идеалистическом мире, который живет в хаосе, не подчиняясь никаким законам. Ведь если для каждого закон свой, то закона нет ни для кого. Ловушка иррациональности работает сама собой, для ее захлопывания не нужно предпринимать никаких усилий. Намного проще не делать ничего, вместо того чтобы делать хоть что-то.

Я захотел ответить на вопрос - почему люди отказываются от рационального мышления, и почему позволяют идеалистическому миру заменить материалистический. Эта статья была написана как сборник заметок в процессе изучения диалектики Гегеля, когда я решил заменить тяжелые для слуха и восприятия определения на более легкие и удобоваримые. В процессе написания этих заметок я начал делать выводы, на основе собственных суждений, что и стало основой этой статьи.

Мир вокруг нас порой

146

Mojsha 28 сен 2021 в 15:55

Потрясающе красиво: как отобразить десятки признаков в данных

6 мин

24K

Блог компании SkillfactoryPython * Программирование * Визуализация данных * Машинное обучение *

Туториал

Перевод

Пока эксперты Хабра дегустируют наши курсы, пробуем алгоритм UMAP урожая 2018, раскрывающий тонкие оттенки данных высокой размерности.

Статья напомнит об этой прекрасной альтернативе t-SNE или PCA и поможет с визуализацией на флагманском курсе Data Science.

PythonAnalyst 28 сен 2021 в 10:55

Мегаанализ распространения Covid-19 в Москве

4 мин

4.8K

Машинное обучение * ЗдоровьеВизуализация данных * Big Data * Python *

Из песочницы

В этой части целого цикла статей я представлю только статистические данные. В последующих главах будет выполнено предсказание тяжести заболевания, влияния загрязнения воздуха и даже сделано фундаментальное открытие, обобщающее закон Гомперца на различные тяжести течения Covid- 19.

+14

TatianaLi 24 сен 2021 в 14:14

Геоаналитика с помощью Python и открытых данных: пошаговое руководство

11 мин

57K

Python * OpenStreetMap * Геоинформационные сервисы * Открытые данные * Визуализация данных *

Из песочницы

Геоаналитика с помощью Python: GeoPandas, folium, Uber H3, OSM + примеры как можно определять лучшие локации для поиска помещений под открытие кофейни (и не только).

+29

lionwing 24 сен 2021 в 09:24

(Любительский) временной анализ ДЭГ в Москве

3 мин

7.1K

Визуализация данных * Статистика в IT

Из песочницы

По следам замечательной статьи "Что же не так с ДЭГ в Москве?" я решил проанализировать распределение голосов за разных кандидатов по времени. Результаты меня, мягко говоря, удивили.

Хочу смотреть графики

+26

volodya_research 18 сен 2021 в 23:52

Q-Q Plots. От чайника до профессионала за один гайд

8 мин

68K

Визуализация данных * Статистика в IT

Туториал

Как понять, что выборка данных принадлежит определенному распределению? Есть 2 метода: аналитический тест Колмогорова-Смирнова (тест Шапиро-Уилка для нормального) и графический метод при помощи графика квантиль-квантиль плот.

Чем так замечателен второй вариант? Он позволяет делать выводы, не основываясь на таких спорных показателях как p.value .

Графический метод является мощнейшим инструментом анализа, но как сказано в англоязычной статье википедии про Q-Q Plots, требует серьезных навыков для интерпретации. В данной статье я представляю дорожную карту пути к пониманию квантильных графиков.

Kilor 13 сен 2021 в 14:10

Кластеризуем миллионы планов PostgreSQL

4 мин

4.9K

Блог компании ТензорPostgreSQL * Алгоритмы * Базы данных * Визуализация данных *

Как найти самые "горячие" запросы на вашем PostgreSQL-сервере? Поискать их в логе и проанализировать план или воспользоваться расширением pg_stat_statements.

А если в лог попадает миллион запросов за сутки?.. Тогда любое значение лимита pg_stat_statements.max окажется недостаточно велико, чтобы собрать правдивую статистику. Так давайте собирать эту статистику прямо с планов!

Но для некоторых сервисов СБИС нам в "Тензоре" производительность запросов к базе настолько важна, что auto_explain.log_min_duration приходится выставлять в единицы миллисекунд - и вот они, миллионы планов... Как не потеряться в них?

Yellow_ki 12 сен 2021 в 15:27

Битва за условное форматирование: дополняем стандартный функционал Power BI

8 мин

6.2K

Big Data * Визуализация данных * Статистика в IT

Из песочницы

Как использовать для визуализации такой замечательный инструмент, как условное форматирование, если ваши данные против этого? Как добавить в отчет красивую карту, если несколько точек "портят" всю картину? Как использовать статистические методы для настройки внешнего вида вашего отчета?

Я постарался рассказать об этом на примере выполнения задания для хакатона по Power BI.

abbey 7 сен 2021 в 07:00

Вывод SEO мета тегов title и description в виде визуальной структуры для каждой веб-страницы за один раз

3 мин

Веб-дизайн * Веб-разработка * Визуализация данных * Поисковая оптимизация * Дизайн

Перевод

Давно существует куча инструментов от Ahrefs, Mooz, Semrush и т.д., которые показывают главные мета теги для каждой страницы отдельно, в лучшем случае списком.

Но кто-нибудь видел инструмент, который выводит сразу все title и description за раз и показывает это в виде удобной иерархической визуальной структуры для всего веб-сайта?

Давайте по порядку ...

-4

eduard93 7 сен 2021 в 06:48

Создание отчетов в InterSystems Reports

10 мин

1.6K

Блог компании InterSystemsВизуализация данных *

Туториал

Введение

! В связи с проблемами Хабра с отображением md текстов, вы можете ознакомится с полным текстом статьи на GitHub.

В мире огромных объемов данных как никогда важно сделать информацию доступной и легко интерпретируемой. С помощью InterSystems Reports (Logi Reports) вы можете легко и эффективно представлять сложные данные. InterSystems Reports – модуль InterSystems IRIS и InterSystems IRIS for Health. Это современное решение для создания и публикации отчетов, которое включает в себя:

Встроенную оперативную отчетность, которая может быть настроена как разработчиками отчетов, так и конечными пользователями.
Точное форматирование, позволяющее создавать специализированные формы, например, макеты для счетов, документов и т.д.
Макеты, обеспечивающие структуру для отображения как агрегированных, так и транзакционных данных.
Позиционирование заголовков, колонтитулов, агрегированных и подробных данных, изображений и вложенных отчетов.
Разнообразные типы отчетов.
Публикация и распространение отчетов, включая экспорт в PDF, XLS, HTML, XML и другие форматы файлов, печать и архивирование для соблюдения нормативных требований.

Читать дальше →

-8

Anastasia_rova 6 сен 2021 в 10:35

«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

8 мин

9.1K

Блог компании НетологияData Engineering * DIY или Сделай самСтатистика в ITВизуализация данных *

Привет, Хабр! Меня зовут Владимир Герингер, я автор проекта «Футбол в цифрах». В нём я собираю футбольную статистику, анализирую данные, вывожу закономерности и рассказываю аудитории о самом интересном в виде коротких заметок и подробных статей. Данные — моё хобби, я собрал их достаточно, чтобы сделать выводы об основных проблемах российского футбола и предложить решения.

Как рост и вес футболистов влияют на игру

Troechnik 1 сен 2021 в 09:34

Красивое дерево PATRICIA (Реализация на C++)

13 мин

12K

C++ * Визуализация данных * Хранение данных * Учебный процесс в IT

Туториал

Из песочницы

Забытое, сложное, изумительное, красивое дерево со звуком ломающихся коленок.

Прострелить колени о патрицию

+15

volodya_research 28 авг 2021 в 21:07

Анализ распределения временных интервалов между покупками на R

10 мин

5.1K

R * Визуализация данных * Статистика в IT

Из песочницы

В статье я провожу ресёрч интервалов между собственными банковскими тратами за последние полгода и с помощью статистических методов в R пытаюсь понять, какому распределению эти интервалы подчиняются.

Я представляю:

1. Код на R для анализа любых временных интервалов.

2. Подбор экспоненциального и степенного распределения под данные с помощью метода максимального правдоподобия (MLE). Для экспоненциального я использую fitdistr() из пакета MASS, а для степенного fit_power_law() из пакета igraph.

3. Проверку данных на соответствие подобранному распределению с помощью теста Колмогорова-Смирнова. Я использую функцию ks.test() из пакета stats.

+12

dima_vs 27 авг 2021 в 14:07

Как мы внедрили BI-платформу и начали развивать self-service аналитику

7 мин

8.2K

Блог компании inDrive.TechData Mining * Визуализация данных * Исследования и прогнозы в IT * Статистика в IT

Всем привет! Меня зовут Дима. Я BI Engineering Manager в inDriver. В компанию я пришел в марте 2020 года развивать направление Business Intelligence. О том, как это происходило и происходит сейчас, с какими вызовами приходится сталкиваться и какие у нас планы на будущее по этому направлению, читайте далее в этой статье.

1 2 ...

50 51

53 54 ...

99 100

Визуализация данных *

Аномалии электоральной статистики на выборах в Государственную Думу 2021 года по 125 ОИК

Веб приложение для анализа и визуализации результатов выборов в Государственную Думу в 2021

Будущее BI за открытым ПО

Материалы митапа для аналитиков: ценообразование, дашборд для SCRUM-команд, построение процессов

Как делали онлайн карту объектов культурного наследия

Учим Kibana работать с Clickhouse (Ярослав Саган, Николай Нестеренко)

Букварь материалиста

Потрясающе красиво: как отобразить десятки признаков в данных

Мегаанализ распространения Covid-19 в Москве

Геоаналитика с помощью Python и открытых данных: пошаговое руководство

(Любительский) временной анализ ДЭГ в Москве

Q-Q Plots. От чайника до профессионала за один гайд

Кластеризуем миллионы планов PostgreSQL

Ближайшие события

Битва за условное форматирование: дополняем стандартный функционал Power BI

Вывод SEO мета тегов title и description в виде визуальной структуры для каждой веб-страницы за один раз

Создание отчетов в InterSystems Reports

Введение

«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

Красивое дерево PATRICIA (Реализация на C++)

Анализ распределения временных интервалов между покупками на R

Как мы внедрили BI-платформу и начали развивать self-service аналитику

Вклад авторов