Визуализация данных *

Облекаем данные в красивую оболочку

СтатьиПостыНовостиАвторыКомпании

Kilor 29 июл 2020 в 17:55

Вооруженным глазом: наглядно о проблемах PostgreSQL-запроса

2 мин

8.4K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Визуализация данных *

Технотекст 2020

Продолжаем открывать для публичного доступа новый функционал нашего сервиса анализа планов выполнения запросов в PostgreSQL explain.tensor.ru. Сегодня мы научимся определять больные места навскидку в больших и сложных планах, лишь мельком взглянув на них вооруженным глазом…

В этом нам помогут различные варианты визуализации:

Читать дальше →

+29

ilusha_sergeevich 29 июл 2020 в 15:53

Коронавирус: первые итоги пандемии и карантина

9 мин

160K

Открытые данные * Научно-популярноеЗдоровьеВизуализация данных * Биотехнологии

The Economist: Десятки миллионов хирургических операций были отложены в связи с пандемией во всём мире. Больницам потребуется несколько месяцев, чтобы справиться с накопившимся отставанием. Национальная служба здравоохранения Англии (NHS) считает, что она уже отложила более двух миллионов запланированных операций, освободив 12 000 коек для пациентов c COVID-19.

The Hill: По оценкам Национального института аллергии и инфекционных заболеваний США из-за карантина почти половина от 650 000 американских онкологических больных не получают лечение, не назначаются две трети процедур физиотерапии, количество операций по трансплантации сократилось на 85%, экстренные оценки случаев инсульта снизились на 40% и более половины детей не были вовремя привиты, что всё вместе указывает на массовую будущую катастрофу в области здравоохранения.

Mirror: Последствия блокировки коронавируса могут привести к 200 000 дополнительных смертей в Великобритании из-за задержек и неправильного распределения приоритетов в системе здравоохранения, говорится в государственном докладе. За шесть месяцев было отменено 75% процедур по плановой медицинской помощи, а число госпитализаций в марте и апреле сократилось на четверть по сравнению с предыдущим периодом. На момент публикации статьи в Mirror в Великобритании зарегистрировано 45 000 смертей среди людей с положительным тестом на коронавирус.

The Telegraph: ЮНИСЕФ предупреждает, что карантин может унести больше жизней, чем коронавирус, а именно повлечь за собой свыше миллиона детских смертей от малярии, пневмонии и диареи в развивающихся странах в ближайшиее шесть месяцев. Только это значение в разы превышает официальное количество смертей во всём мире среди людей с положительным тестом на COVID-19 с начала пандемии.

Читать дальше →

+38

830

dssaenko 29 июл 2020 в 06:58

Как мы нарисовали на карте несколько тысяч интерактивных объектов без вреда для перформанса

9 мин

22K

Блог компании AvitoTechMaps API * Usability * Визуализация данных *

Привет, меня зовут Дарья, и я Frontend-разработчик юнита Гео в Авито. Хочу поделиться опытом того, как мы сделали на вебе новый поиск по карте, заменив кластеры более удобным решением и сняв ограничение на количество отображаемых объектов.

В статье я расскажу, какая перед нами стояла задача и как мы справлялись с проблемами в процессе реализации.

Читать дальше →

+36

randall 28 июл 2020 в 12:53

Большие ошибки в больших данных: проблемы анализа на практике

7 мин

8.7K

Блог компании VKМатематика * Визуализация данных * Анализ и проектирование систем * Big Data *

При работе с big data ошибок не избежать. Вам нужно докопаться до сути данных, расставить приоритеты, оптимизировать, визуализировать данные, извлечь правильные идеи. По результатам опросов, 85 % компаний стремятся к управлению данными, но только 37% сообщают об успехах в этой области. На практике изучать негативный опыт сложно, поскольку о провалах никто не любит говорить. Аналитики с удовольствием расскажут об успехах, но как только речь зайдет об ошибках, будьте готовы услышать про «накопление шума», «ложную корреляцию» и «случайную эндогенность», и без всякой конкретики. Действительно ли проблемы с big data существуют по большей части лишь на уровне теории?

Сегодня мы изучим опыт реальных ошибок, которые ощутимо повлияли на пользователей и аналитиков.

Читать дальше →

+22

N-Cube 27 июл 2020 в 06:06

Делаем маршрутизацию (роутинг) на OpenStreetMap. Добавляем поддержку односторонних дорог

8 мин

6.6K

Программирование * Научно-популярноеВизуализация данных * OpenStreetMap * Open source *

Продолжаем цикл статей про построение систем роутинга со сложными требованиями на основе Open Source базы данных PostgreSQL и расширения PgRouting на карте OpenStreetMap. Сегодня мы поговорим о том, как добавить поддержку односторонних дорог (направлений движения). Зачастую, именно отсутствие этой поддержки является основной причиной смены PgRouting на другой "движок" маршрутизации. Как обычно, все данные и результаты доступны в моем GitHub репозитории OSM Routing Tricks, который я пополняю по мере публикаций.

Небольшой маршрут из 330 адресов на карте OpenStreetMap.

Читать дальше →

R3EQ 26 июл 2020 в 14:33

Программное формирование мультисессии Adobe Audition с аудиозаписями телефонных звонков

31 мин

2.8K

C * Визуализация данных * ЗвукИнфографикаWindows *

В предыдущей статье я писал про формирование векторной графики SVG с диаграммой телефонных звонков, напоминающей диаграмму Ганта. Информацию о телефонных звонках я брал из детализации, которую скачивал через личный кабинет на сайте мобильного оператора. Дело было почти четыре года назад. В настоящее время у меня появилась идея сделать проект посложнее: построить мультисессию в звуковом редакторе Adobe Audition 1.5 из аудиозаписей телефонных разговоров. При этом эти аудиозаписи расположить в мультисессии строго в соответствии по времени, а так же по датам, которым будут соответствовать треки. При этом визуально такая мультисессия будет напоминать ту же диаграмму, что и строилась в предыдущей статье. Кроме того, будет возможность оперативного масштабирования и прослушивания записей телефонных разговоров, как в «миксе», так и в режиме «соло» по дням.

Читать дальше →

VladFX 23 июл 2020 в 09:08

Аномалии голосования по поправкам к Конституции России. Часть 1

5 мин

68K

Открытые данные * Визуализация данных * Data Mining * Big Data *

Из песочницы

Общероссийское голосование по вопросу одобрения изменений, вносимых в Конституцию Российской Федерации, проводилось с 25 июня по 1 июля 2020 года (wikipedia).

Основная цель данной заметки — это продемонстрировать как можно быстро начать работать с данными голосования и показать наличие определенного вида аномалий в них.

Все вычисления, визуализации и парсинг данных приведены в Google Colab, который доступен по этой ссылке Google Colab.

Читать дальше →

+146

387

AlexWriter 16 июл 2020 в 07:41

Время в логах

2 мин

5.3K

Angular * Open source * Rust * Визуализация данных * Отладка *

Записи в логах о затраченном на ту или иную операцию времени дело вполне обычное. Пожалуй даже так, если я вижу логи без замеров (особенно если речь идёт о приложении обрабатывающим «тяжёлые» запросы), то вопрос к разработчикам возникает сам собой.

Измерение продолжительности стадий инициализации приложения; времени затраченного на обработку данных; времени отрисовки (рендеринга) и так далее позволяют нам судить о достаточности ресурсов и эффективности нашего решения так какового. Кроме того, часто именно тайминг может указать нам на ошибки при отсутствии явных признаков таковых в логах. Например, если обработка какого-нибудь запроса, занимающая как правило несколько миллисекунд, переодически «ест» больше секунды — это явный повод проверить обработчик запроса.

Поскольку нагружать приложение тоннами логов путь, мягко скажем, сомнительный, то разработчик как правило ставит тайминги именно на критически важные операции. А там где таймингов нет — вам вполне может пригодиться новый функционал в обновлённой версии «смотрелки для логов» chipmunk.

Читать дальше →

N-Cube 15 июл 2020 в 16:17

Делаем маршрутизацию (роутинг) на OpenStreetMap. Введение

9 мин

17K

Open source * OpenStreetMap * Визуализация данных * Научно-популярноеПрограммирование *

Хотелось бы поделиться опытом создания систем маршрутизации PostgreSQL/PgRouting на карте OpenStreetMap. Речь пойдет о разработке [коммерческих] решений со сложными требованиями, для более простых проектов, вероятно, достаточно обратиться к документации. Насколько мне известно, такие вещи, как полная поддержка односторонних дорог и направлений движения, быстрый роутинг на тысячах адресов (порядка секунд на обычном лаптопе, к примеру, Macbook Pro 13" 2013 года), создание дорожного графа с заданными свойствами, мета-оптимизация маршрутов вообще нигде и никак не рассматриваются. Как обычно, все данные и результаты доступны в моем GitHub репозитории OSM Routing Tricks, который я буду пополнять по мере публикаций.

Небольшой маршрут из 330 адресов на карте OpenStreetMap (время построения около 5 секунд на вышеупомянутом лаптопе). Можно ли за это же время построить маршрут, скажем, из 5000 точек? Да, можно, и об этом мы тоже поговорим (в следующих частях статьи).

Читать дальше →

skillfactory_school 14 июл 2020 в 09:28

Продвинутый уровень визуализации данных для Data Science на Python

7 мин

62K

Блог компании SkillfactoryBig Data * Python * Визуализация данных * Учебный процесс в IT

Перевод

Как сделать крутые, полностью интерактивные графики с помощью одной строки Python

Когнитивное искажение о невозвратных затратах (sunk cost fallacy) является одним из многих вредных когнитивных предубеждений, жертвой которых становятся люди. Это относится к нашей тенденции продолжать посвящать время и ресурсы проигранному делу, потому что мы уже потратили — утонули — так много времени в погоне. Заблуждение о заниженной стоимости применимо к тому, чтобы оставаться на плохой работе дольше, чем мы должны, рабски работать над проектом, даже когда ясно, что он не будет работать, и да, продолжать использовать утомительную, устаревшую библиотеку построения графиков — matplotlib — когда существуют более эффективные, интерактивные и более привлекательные альтернативы.

За последние несколько месяцев я понял, что единственная причина, по которой я использую matplotlib, — это сотни часов, которые я потратил на изучение сложного синтаксиса. Эти сложности приводят к часам разочарования, выясняя на StackOverflow, как форматировать даты или добавить вторую ось Y. К счастью, это прекрасное время для построения графиков в Python, и после изучения вариантов, явным победителем — с точки зрения простоты использования, документации и функциональности — является библиотека plotly. В этой статье мы погрузимся прямо в plotly, изучая, как создавать лучшие графики за меньшее время — часто с помощью одной строки кода.

Читать дальше →

+20

REZ1DENT3 14 июл 2020 в 06:21

Профилирование. Отслеживаем состояние боевого окружения с помощью Redis, ClickHouse и Grafana

7 мин

8.6K

Laravel * Open source * PHP * Визуализация данных * Высоконагруженные системы *

Туториал

Технотекст 2020

прим. latency/time.

Наверное перед каждым возникает задача профилирования кода в продакшене. С этой задачей хорошо справляется xhprof от Facebook. Вы профилируете, к примеру, 1/1000 запросов и видите картину на текущий момент. После каждого релиза прибегает продакт и говорит «до релиза было лучше и быстрее». Исторических данных у вас нет и доказать вы ничего не можете. А что если бы могли?

Читать дальше →

hse_spb 3 июл 2020 в 13:14

ML+HCI: что исследуют на стыке машинного обучения и человеко-компьютерного взаимодействия

9 мин

3.8K

Блог компании Питерская ВышкаВизуализация данных * Интерфейсы * Машинное обучение * Учебный процесс в IT

Многие убеждены, что область Human Computer Interaction (HCI или человеко-компьютерное взаимодействие) сводится только к проектированию сайтов или приложений, а основная задача специалиста — удовлетворить пользователей, увеличивая на несколько пикселей кнопку лайка. В посте мы хотим показать, что это совсем не так, и рассказать, что происходит в HCI на стыке с исследованиями машинного обучения и искусственного интеллекта. Возможно, это позволит читателям посмотреть на эту область с новой для себя стороны.

Для обзора мы взяли труды конференции CHI: Conference on Human Factors in Computing Systems за 10 лет, и с помощью NLP и анализа сетей социтирования посмотрели на темы и области на пересечении дисциплин.

Читать дальше →

ArtemBoiko 30 июн 2020 в 07:30

Взлёты и падения строительной отрасли Сан-Франциско. Тенденции и история развития строительной активности

13 мин

2.7K

Big Data * Data Mining * Python * Визуализация данных * Урбанизм

Это серия статей посвящена исследованию строительной активности главного города Кремниевой Долины — Сан-Франциско. Сан-Франциско — технологическая «Москва» нашего мира, на примере которого (при помощи открытых данных) можно наблюдать за развитием строительной отрасли в больших городах и столицах.

Построение графиков и расчётов проводилось в Jupyter Notebook (на платформе Kaggle.com).

Данные о более чем миллионе разрешений на строительство (записей в двух датасетах) от департамента по строительству Сан-Франциско — позволяют проанализировать не только строительную активность в городе, но и критически рассмотреть последнии тенденции и историю развития строительной отрасли за последние 40 лет, в период с 1980 по 2019 год.

Открытые данные дают возможность исследовать основные факторы, которые влияли и будут влиять на развитие строительной отрасли в городе, разделив их на “внешние” (экономические бумы и кризисы) и “внутренние” (влияние праздников и сезонно-годовых циклов).

Читать дальше →

EUSP 26 июн 2020 в 08:38

Где в России убивают больше всего? Анализ данных

7 мин

55K

Блог компании Европейский университет в Санкт-ПетербургеВизуализация данных * Научно-популярноеОткрытые данные * Статистика в IT

Привет, Хабр.

Меня зовут Алексей Кнорре, и я криминолог, аспирант в UPenn и аффилированный научный сотрудник в ЕУСПб. Подумал, что сейчас, после месяцев карантина, самое время рассказать о преступности. Неясная экономическая ситуация, рост безработицы, ухудшение общественного здоровья — все это вызывает опасения в завтрашнем дне. Что будет с преступностью в России? Как криминолог, я использую статистические методы и программирование для того, чтобы эмпирически исследовать преступность, поэтому я постоянно работаю с данными, о которых сегодня и хотел бы рассказать доступным языком. На Хабре было всего два поста по тегу «криминология», поэтому надеюсь, мой рассказ будет интересным.

Кто-то из вас мог видеть в прошлом году рейтинг безопасности городов России. Как собирали данные о безопасности: вроде бы был опрос жителей, но сколько человек опросили? Не было ли в выборке систематических смещений, как если бы опрашивали только жителей больших многоквартирных домов? Насколько вообще люди могут точно сказать, что в их городе в целом безопасно? Безопасно по сравнению с чем, и как эту безопасность измерить? А вдруг анкетный опрос отражает больше общественные настроения, нежели реальную преступность — вероятность случайного нападения на улице, грабежа или кражи?

В науке преступность измеряют разными способами. Два года назад мы с коллегами, например, провели первый в России репрезентативный виктимизационный опрос, обзвонив 16 тыс. человек. Данные мы открыли для общего пользования. Основной вывод — уровень реальной преступности где-то в 8 раз выше регистрируемой правоохранительными органами. Вот визуализация процесса от Марии Бублик и Натальи Тогановой, вошедшая в шорт-лист премии Information is Beautiful — 2019.

Читать дальше →

+44

chemtech 26 июн 2020 в 08:31

Высокопроизводительный TSDB benchmark VictoriaMetrics vs TimescaleDB vs InfluxDB

8 мин

9.5K

DevOps * IT-инфраструктура * Визуализация данных * Системное администрирование *

Перевод

VictoriaMetrics, TimescaleDB и InfluxDB были сравнены в предыдущей статье по набору данных с миллиардом точек данных, принадлежащих 40K уникальным временным рядам.

Несколько лет назад была эпоха Zabbix. Каждый bare metal сервер имел не более нескольких показателей – использование процессора, использование оперативной памяти, использование диска и использование сети. Таким образом метрики с тысяч серверов могут поместиться в 40 тысяч уникальных временных рядов, а Zabbix может использовать MySQL в качестве бэкенда для данных временных рядов :)

В настоящее время один node_exporter с конфигурациями по умолчанию предоставляет более 500 метрик на среднем хосте. Существует множество экспортеров для различных баз данных, веб-серверов, аппаратных систем и т. д. Все они предоставляют множество полезных показателей. Все больше и больше приложений начинают выставлять различные показатели на себя. Существует Kubernetes с кластерами и pod-ами, раскрывающими множество метрик. Это приводит к тому, что серверы выставляют тысячи уникальных метрик на хост. Таким образом, уникальный временной ряд 40K больше не является высокой мощностью. Он становится мейнстримом, который должен быть легко обработан любой современной TSDB на одном сервере.

Что такое большое количество уникальных временных рядов на данный момент? Наверное, 400К или 4М? Или 40м? Давайте сравним современные TSDBs с этими цифрами.

Читать дальше →

skillfactory_school 25 июн 2020 в 17:44

Интерактивная визуализация данных при помощи Plotly: строим красивые графики с Express и Cufflinks

12 мин

40K

Блог компании SkillfactoryBig Data * Визуализация данных * Учебный процесс в IT

Перевод

Если Вы все еще используете Matplotlib для создания графиков в Python, самое время взглянуть на мир с высоты альтернативной библиотеки интерактивной визуализации.

Plotly позволяет создавать красивые, интерактивные, экспортируемые графики с помощью всего нескольких строк кода. Однако без карты подъем в гору Plotly может быть медленным и мучительным.

Вот камни преткновения, которые могут появиться на пути авантюристов, решивших покорить эту гору:

непонятная начальная настройка для работы оффлайн без аккаунта;
неимоверное количество строк кода;
устаревшая документация;
множество различных инструментов Plotly, в которых можно заблудиться (Dash, Express, Chart Studio и Cufflinks).

Несколько раз попытавшись вскарабкаться на эту гору, я все же нашел карту, снаряжение и короткую тропинку к вершине. В этой статье я укажу вам путь, рассказав как начать работу в оффлайн-режиме, как создавать графики, а потом их корректировать, куда обратиться за помощью и какими инструментами пользоваться.

Читать дальше →

Matshishkapeu 25 июн 2020 в 06:30

Интерактивные финансовые данные в 20 строках кода

9 мин

14K

Python * Визуализация данных * ИнфографикаФинансы в IT

Статьи на финансовые темы появляются на Хабре регулярно. Во многих из них в качестве источника первичных данных используется неофициально открытое API Yahoo finance. В этой статье я покажу три способа добыть данные (включая Yahoo) а также как напилить из них простое вэб-приложение в 20 строк и выдать его клиенту, не умеющему в CLI.

Читать дальше →

de_evjeny 23 июн 2020 в 08:13

Визуализация каскадов Хаара

6 мин

8.1K

Python * Визуализация данных * Машинное обучение * Программирование *

Туториал

Интерпретируемое машинное обучение — популярная тема в последние годы. Во многом благодаря использованию этой технологии в медицине, транспорте и других областях, где цена ошибки велика, нужно понимать, как модель устроена и чем "руководствуется" при принятии решений.

Простота объяснения зависит от сложности модели. Куда проще понять, как работает дерево принятия решений, чем извлечь какие-то определенные правила из весов полносвязной нейронки. К счастью, каскады Хаара имеют довольно простую структуру и можно, последовательно применяя их к изображению, узнать, как работает модель.

Читать дальше →

aRyzhik 22 июн 2020 в 09:23

РосКомСвобода провела онлайн-конкурс Pandemic Hackathon. Знакомство с проектами-победителями

6 мин

1.2K

Блог компании РосКомСвободаХакатоныРазвитие стартапаВизуализация данных * Open source *

Привет, Хабр! Недавно мы определили победителей онлайн-конкурса проектов Pandemic Hackathon. Ими стали шесть команд, представивших проекты по направлениям “помощь здравоохранению” и “гражданская взаимопомощь”. Именно они разделили призовой фонд в 1,5 миллиона рублей и теперь готовятся к реализации своих идей.

Все проекты соответствуют концепции цифрового гражданства, в рамках которой проходил конкурс, и направлены на оказание помощи в период пандемии и после ее окончания, как каждому конкретному человеку (например, Karma), так и медицинскому сообществу (Covid Ray), а также обществу в целом («Фальсификации в медицине»). Они отвечают принципам открытости и защиты персональных данных.

! Не все проекты носят кодонаписательный характер — с учетом коронавирусных реалий у нас прошёл онлайн-конкурс с возможностью представить в том числе проекты по адвокации в области цифровых прав.

Давайте поближе познакомимся проектами, разделившими наш призовой фонд.

Читать дальше →

empenoso 22 июн 2020 в 02:26

Скрипт выборки российских облигаций по параметрам

6 мин

37K

Финансы в ITВизуализация данных * Node.JS * JavaScript * Проектирование API *

Уже несколько лет я пользуюсь облигациями в качестве замены депозита, потому что процент дохода, который можно получить со вклада стабильно падает. В отличии от ситуации с депозитом, в облигациях всегда можно найти большую доходность. И в этой ситуации меня не устраивало только количество времени на механическую работу по поиску подходящих вариантов бумаг.

Работа скрипта по поиску облигаций на Московской бирже

Так как сервисов по поиску российских облигаций много, но ни один из них не имеет достаточной гибкости и простоты и поэтому на работу с ними тратится достаточно много времени. Исходя из этого и решил разработать собственный скрипт для поиска облигаций.

Сделал это на Node.js с выводом полученных результатов в локальный html файл с интерактивной таблицей от Google Charts (а в случае, если JavaScript отключен в браузере, что например происходит при открытии этого html файла из мессенджера на iPhone, то отображается статическая версия таблицы, также сгенерированная скриптом).

Поиски замены вклада на Мосбирже

+45

114

1 2 ...

61 62

64 65 ...

99 100

Визуализация данных *

Вооруженным глазом: наглядно о проблемах PostgreSQL-запроса

Коронавирус: первые итоги пандемии и карантина

Как мы нарисовали на карте несколько тысяч интерактивных объектов без вреда для перформанса

Большие ошибки в больших данных: проблемы анализа на практике

Делаем маршрутизацию (роутинг) на OpenStreetMap. Добавляем поддержку односторонних дорог

Программное формирование мультисессии Adobe Audition с аудиозаписями телефонных звонков

Аномалии голосования по поправкам к Конституции России. Часть 1

Время в логах

Делаем маршрутизацию (роутинг) на OpenStreetMap. Введение

Продвинутый уровень визуализации данных для Data Science на Python

Профилирование. Отслеживаем состояние боевого окружения с помощью Redis, ClickHouse и Grafana

ML+HCI: что исследуют на стыке машинного обучения и человеко-компьютерного взаимодействия

Взлёты и падения строительной отрасли Сан-Франциско. Тенденции и история развития строительной активности

Ближайшие события

Где в России убивают больше всего? Анализ данных

Высокопроизводительный TSDB benchmark VictoriaMetrics vs TimescaleDB vs InfluxDB

Интерактивная визуализация данных при помощи Plotly: строим красивые графики с Express и Cufflinks

Интерактивные финансовые данные в 20 строках кода

Визуализация каскадов Хаара

РосКомСвобода провела онлайн-конкурс Pandemic Hackathon. Знакомство с проектами-победителями

Скрипт выборки российских облигаций по параметрам

Вклад авторов