Как стать автором
Поиск
Написать публикацию
Обновить
50.98

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Как получать пятёрки с помощью анализа данных?

Время на прочтение4 мин
Количество просмотров17K

Привет, Хабр! Я уверен, что среди нас есть много студентов и, наверное, все из них признают, что на своём студенческом пути встречали такие науки, о гранит которых можно сломать зубы. Вот поэтому хочу вам рассказать о том, как хобби — наука о данных, помогло мне сдать один из самых сложных предметов в семестре на пятёрку. Если вам интересно — прошу под кат.
Читать дальше →

Обзор Knime Analytics Platform — open source системы для анализа данных

Время на прочтение4 мин
Количество просмотров46K

О KNIME


Вашему вниманию представляется обзор Knime Analytics Platform – open source фреймворка для анализа данных. Данный фреймворк позволяет реализовывать полный цикл анализа данных включающий чтение данных из различных источников, преобразование и фильтрацию, собственно анализ, визуализацию и экспорт.

Скачать KNIME (eclipse-based десктоп приложение) можно отсюда: www.knime.org

Кому может быть интересна эта платформа:

  • Тем, кто хочет анализировать данные
  • Тем, кто хочет анализировать данные и не владеет навыками программирования
  • Тем, кто хочет покопаться в неплохой библиотеке реализованных алгоритмов и, возможно, узнать что-то новое
Читать дальше →

Рисуем коммитами на Гитхабе

Время на прочтение5 мин
Количество просмотров37K

[Пятничное]


Всегда хотел сделать свой график активности пользовательского профиля на Гитхабе. Например, выкладывать коммиты каждый день так, чтобы через год этот график превратился в какую-нибудь картинку, пусть и с ограничением по размерам в 52×7 квадратиков-пикселей (52 недели в году × 7 дней в неделе).


Проблема была в том, что даже при полной автоматизации процесса всё равно ждать целый год. А тут я почитал документацию Гитхаба и понял, что задача решается проще и более того — за один раз. А значит, надо делать не откладывая. Обычно названия проектам придумывать сложно, но тут оно пришло само. Кай рисовал льдинками, а Герда рисует коммитами!


График коммитов на Гитхабе в виде картинки

Как нарисовать свою картинку коммитами на GitHub

Среднее арифметическое: физический смысл и визуализация

Время на прочтение4 мин
Количество просмотров24K

Переменная величина – атрибут (свойство) системы, меняющий свое числовое значение. Множество значений переменой величины может иметь вид:


Ряд чисел


Человек анализирует числовые данные такого рода и принимает решения. Знание температуры воздуха помогает правильно одеться. Курс валюты говорит покупать ее или продавать.


Когда значений одно или несколько, то никаких трудностей не возникает. Но когда значений десятки или сотни, то человеку сложно сразу понять, что означают полученные данные. На помощь приходят интегральные характеристики множеств значений и визуализация.


Одна из интегральных характеристик множества значений переменной величины – среднее арифметическое. Посмотрим на него с точки зрения статистики, физики (механики) и эстетики.


Три точки зрения на числовые данные


Читать дальше →

8 JavaScript библиотек для визуализации данных в виде интерактивных карт

Время на прочтение7 мин
Количество просмотров47K
Визуализация данных стала неотъемлемой частью жизни практически каждого веб-разработчика. Если построение графиков, диаграмм, карт и дашбордов до сих пор никогда не были вашей головной болью, просто немного подождите: наверняка и вы скоро вступите в наш «клуб».

Данная статья дает общее, но вовлеченное представление о восьми самых интересных, на мой взгляд, JavaScript-библиотеках для построения интерактивных геовизуализаций. В целом, таких решений сейчас много, и выбрать оптимальное под тот или иной конкретный проект – задача порой непростая как минимум по времени. Этой публикацией я попытаюсь хотя бы немного упростить жизнь тем, кто только начинает разбираться в данной теме. Кстати, это слегка модифицированный перевод моей недавней статьи на Onextrapixel (оригинал на английском).

Заглавная картинка: визуализация данных с помощью интерактивных карт
Читать дальше →

Интерактивная таблица результатов

Время на прочтение2 мин
Количество просмотров16K
Глядя на таблицу результатов футбольного сезона, я часто задаюсь вопросами:

  • Лидировала ли команда с начала сезона или совершила героический рывок в конце?
  • Как зимнее трансферное окно повлияло на результаты?
  • Доигрывали ли сезон команды в середине таблицы или играли в полную силу?

Статичная таблица не даёт ответов.

Поиски удачной визуализации сезона на просторах интернета закончились безуспешно, поэтому я начал экспериментировать сам.

Графики или быстро теряли читаемость с ростом количеством команд, или требовали нетривиальной концентрации при первом контакте. В итоге, всё закончилось тем, с чего началось — таблицей. Точнее, скриптом, который преобразовывает результаты сезона в интерактивную таблицу. Можно посмотреть результаты после любого тура или просто нажать на replay и наблюдать, как команды плавают вверх и вниз по таблице:

image

Живая демонстрация
Читать дальше →

Исследование датасета с IMDB

Время на прочтение5 мин
Количество просмотров28K


Проблематика


Фильмы — это круто, фильмы вдохновляют нас, наполняют уверенностью, в общем дают нам многое. И поэтому в этой статье я бы хотел рассказать вам об исследовании тенденций современного кинематографа с помощью инструментов анализа данных, который уже был презентован в финале Science Slam ITMO University 2.0. Полный выпуск доступен здесь.
Читать дальше →

Визуализация интеграционных приложений

Время на прочтение7 мин
Количество просмотров29K
image

С тех пор как я начал выполнять обязанности системного архитектора, мне чаще приходится рисовать прямоугольники и стрелки, чем писать программный код. С этим можно было бы бороться, например, бессонными ночами участвовать в проектах с открытым исходным кодом, создавать подтверждения осуществимости концепции и демонстрационный код, но и там тоже нужно рисовать прямоугольники, чтобы продемонстрировать архитектуру. Эта статья посвящена визуализации обмена сообщениями в распределенных системах, сервис-ориентированной архитектуре (SOA) и микросервисным приложениям при использовании методологии разработки agile (этот термин потерял свое значение, но более подходящего в данном случае нет).
Читать дальше →

Преобразование формы представления данных при помощи Excel+PowerQuery

Время на прочтение5 мин
Количество просмотров16K

В нашем менеджерском труде есть много хорошего и не очень. Но ничто не портит нам жизнь так, как многочисленные эксельки, в которых постоянно нужно что-то ВПР-ить, СУММ-ировать, СУММПРОИЗВ-одить и заниматься прочими рутинными операциями, отнимающими кучу времени и сил. Есть инструмент, позволяющий если не убрать, то минимизировать рутину везде, где есть паттерны данных. Итак, вашему вниманию предлагается чуть более глубокое погружение в принципы работы PowerQuery.
Читать дальше →

Отслеживание хода выполнения в R

Время на прочтение4 мин
Количество просмотров6.7K
Неважно, отдаем ли мы себе в этом отчет, но когда нужно подождать, мы волнуемся и сгораем от нетерпения. Особенно это касается ожидания «вслепую», т.е. когда неизвестно, сколько же еще придется мучиться. Как выяснил Брэд Аллан Майерс, считающийся изобретателем индикатора состояния в 1980-х, возможность отслеживать ход выполнения во время ожидания может значительно улучшить механизм взаимодействия пользователя с приложением (Майерс, 1985).


Типичный индикатор состояния от Simeon87 [GPL], Wikimedia Commons

Поскольку я программирую на R для исследований в биоинформатике, мой код обычно не для широкой публики, но все же важно, чтобы мои пользователи, то бишь коллеги и исследователи, были счастливы, насколько это возможно. Но отслеживание хода выполнения в R — не самая простая задача. В этой статье представлены несколько возможных решений, в том числе и мое собственное (pbmcapply).
Читать дальше →

Intersystems DeepSee. Простая и быстрая визуализация данных

Время на прочтение7 мин
Количество просмотров6.6K
В качестве BI системы нашей организацией была выбрана DeepSee входящая в комплект поставки СУБД InterSystems Cache. Отчасти этот выбор был предопределен тем фактом, что для хранения данных мы используем эту СУБД, поэтому использовать интегрированную BI является лучшим решением.

DeepSee являет собой OLAP кубы которые «смотрят» на выбранную таблицу выбранной области, такие кубы можно фильтровать по всем полям исходной таблицы, что позволяет просматривать данные с любой точки. Например, одной из поставленных задач был вывод информации о родившихся, DeepSee позволил на основе кубов создать таблицы отображающие сколько детей родилось за последний год, разделить их в группы по полу, весу, длине тела, возрасту матерей и месту рождения. Так же для каждого параметра можно задать условия DrillDown – проваливания в параметр, так вместо года мы можем посмотреть сколько всего родилось в конкретный месяц, день, час.

Звучит неплохо, верно? Так оно и есть!
Читать дальше →

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2]

Время на прочтение6 мин
Количество просмотров8.9K


R код (gist) для воспроизведения всех результатов


В первой части, подхваченный вдохновением и желанием проверить гипотезы сразу, я проанализировал взаимосвязь между соотношением полов и распространенностью убийств в странах Европы. Результаты не подтвердили моих ожиданий. Похоже, что во многом страны Европы напоминают регионы одной страны со своей периферией и своими центрами.


В следующей итерации своего скептицизма, результаты которого вы можете прочитать ниже, я проверяю свою гипотезу на данных американских графств, как и авторы исходной статьи.


Коротко о гипотезе

Если вам лень заглянуть в первую часть статьи, то вот кратко суть. Авторы опубликованного в журнале Human Nature исследования утверждают, что соотношения полов во взрослом населении влияет на распространенность тяжких преступлений (в частности, убийств): чем больше женщин, тем больше и преступлений. Я по-прежнему думаю, что все дело в упущенной переменной — центральность/периферийность (urban/rural) — которая и должна объяснять как повышенную долю женщин в городах, так и большее количество преступлений в них.


Убедительно подтвердить свои догадки на простеньких европейских данных мне не удалось. Попробуем на подробных американских.


Читать дальше →

Создание интерактивных графиков с R и Highcharts

Время на прочтение6 мин
Количество просмотров7.6K
Иногда в попытках решить простые задачи приходят в голову великие идеи. Это особенно верно для разработчиков, которые готовы приложить массу усилий для решения простой проблемы к полному своему удовлетворению. Эта история о том, как Торстейн Хенси, основатель и СРО Highcharts искал простой инструмент для создания графиков, чтобы поместить на свою домашнюю страницу замеры глубины снега на Викафьеллет, местной горе, где у семьи был коттедж. Разочаровавшись в обычных flash-расширениях и коммерческих решениях, доступных на тот момент, он решил создать собственное и, конечно же, им поделиться.

Для создания красивых графиков в этой статье я воспользуюсь пакетом highcharter Джошуа Кунста, оболочкой для javascript-библиотеки Highcharts и Shiny.

Пожалуйста, учтите, что все продукты в этой библиотеке бесплатны для некоммерческого использования. Для коммерческих проектов и сайтов воспользуйтесь этим.
Читать дальше →

Ближайшие события

Информационное моделирование зданий (BIM): как построить стадион (или другое здание) с первого раза и под контролем

Время на прочтение11 мин
Количество просмотров27K

Пересечение CAD-чертежей и актуальной оперативной информации.

Представьте, что у вас 20 строительных площадок, и на каждой что-то каждый день происходит. Вы, естественно, хотите знать, что, как и почему. Раньше вы обходили их ногами, потом стали пользоваться данными веб-камер, а теперь стандартом в индустрии становится информационное моделирование зданий/сооружений, или BIM (Building Information Modelling). Это проектирование, строительство и эксплуатация в одной IDE. Собственно, такой подход уже стал государственным в Великобритании, Сингапуре, Норвегии и Китае. У нас же BIM пока применяется для того, чтобы на этапе предпроекта или проекта визуализировать то, что собираются построить. А ещё сейчас делают первые шаги, чтобы ловить проблемы в момент появления, а не когда о них доложат.

Естественно, было бы странно, если бы всё то, что касается финансов и начинается со слов «очень наглядный», не встречалось бы в штыки.

Ещё пример правильного решения — прокладка новой трассы. Нужно решить задачу расчёта оптимальной траектории, обхода преград, оптимизации выкупаемых участков по кадастру, взаимосвязи с существующей сетью дорог и инфраструктурой. Получается довольно объёмная система нелинейных уравнений, и её решение — только начало BIM.

Или, например, вы строите стадион.
Читать дальше →

Выборы-2016. Часть 2 — удивительное рядом и оно разрешено

Время на прочтение4 мин
Количество просмотров27K

В первой части статьи о выборах 2016 года шла речь о результатах в 225 избирательных округах. В этот раз рассмотрим данные о результатах голосования по участковым избирательным комиссиям (УИК), которых насчитывалось чуть менее 100 тысяч. Этот уровень детализации позволяет увидеть неожиданные явления и удивительные закономерности в результатах голосования.


Читать дальше →

Выборы-2016. Часть 1 — результаты и сравнения

Время на прочтение3 мин
Количество просмотров17K

В сентябре прошли выборы в Госдуму РФ VII созыва. При голосовании вся территория России была разделена на 225 округов. В каких округах каждая из партий получила высокие (или низкие) результаты? Какие значения принимала явка избирателей и как она влияла на результаты партий? Ответы на эти вопросы и ряд других наблюдений представлены в этой публикации.


Читать дальше →

Тематическое моделирование на пути к разведочному информационному поиску. Лекция в Яндексе

Время на прочтение19 мин
Количество просмотров17K
Недавно в Москве прошла конференция Data Fest, организованная сообществом Open Data Science и Яндексом. Этой публикацией мы открываем серию расшировок докладов с Data Fest. Автор первого доклада — доктор наук, признанный специалист по машинному обучению и преподаватель Школы анализа данных Константин Вячеславович Воронцов.


Всякую ли поисковую функцию выполняет Яндекс или Google? К сожалению, пока нет. Существуют такие типы поиска, при которых никакая выдача не будет считаться правильной. И дело даже не в релевантности, а в том, что нужен другой поиск — помимо привычного нам всем. Под катом вы найдете расшифровку лекции о разведочном поиске, а также большинство слайдов.

Простой класс для построения линий уровня двумерной сеточной функции

Время на прочтение6 мин
Количество просмотров5.6K
При обработке данных в предметных областях, связанных с научной деятельностью, часто возникает необходимость в построении и визуализации функции двух независимых переменных. Типичным примером является необходимость визуального представления результатов решения двумерных дифференциальных уравнений в частных производных, получаемых в виде так называемых сеточных функций.

Предлагается простой класс для построения линий уровня (изолиний) функции: Z=F(X,Y) в виде линий на плоскости X-Y, удовлетворяющих уравнениям Z=const (где const — набор заданных значений).
Читать дальше →

Хакатон по данным криминальной статистики

Время на прочтение2 мин
Количество просмотров8.6K


У нас хорошая новость — наконец-то организуем хакатон по данным криминальной статистики, уже в следующие выходные: 22-23 октября.
Читать дальше →

Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2]

Время на прочтение10 мин
Количество просмотров21K


UPD Добавил R код (gist) для воспроизведения всех результатов


Исследование, недавно опубликованное в престижном научном журнале Human Nature, обнаружило, что преобладание женщин сопряжено с более высокой преступностью. Вывод сильно противоречит житейскому представлению о том, что где мужчины, там и преступления. Однако он находит поддержку в сравнительно молодых теориях формирования брачных рынков.


Несмотря на стройность использованных в исследовании методов, мне кажется, в нем упущена важная переменная, возможно, ключевая. Было бы прекрасно проверить на тех же данных, но авторы их не публикуют приложением к статье, а собрать самостоятельно — довольно большая работа. Пока решил пойти другим путем — устранить проблемную переменную из дизайна исследования.


Я проверил, наблюдается ли подобная закономерность в Европе на уровне стран. Заинтересованных прошу под кат.


Немного об этом посте не слишком хабровского формата

Изначально мое внимание к исследованию привлек пост в блоге демографа Бориса Денисова. В дискуссии с ним же родилась идея проверить закономерность на странах Европы. Проверил. Результаты интересные. И стал думать, где опубликовать. В очередной раз пришел к выводу, что лучше хабра варианта нет. Понимаю, что тема, вероятно, заинтересует меньшую часть аудитории сообщества. И все же я надеюсь на доброжелательное отношение и ценные комментарии — очень хочется услышать мнения "со стороны". Что касается категоризации статьи — думаю, на хабре не помешал бы хаб (или даже поток) "Академия" (писал от этом раньше в комментарии).


В свое оправдание могу сказать, что те, кому не интересна демография, найдут в этом посте R код, позволяющий в автоматическом режиме скачать данные о населении из двух прекрасных баз данных — Eurostat и Human Mortality Database и воспроизвести все графики, включая и карты. (Ссылка на код в конце статьи)

Читать дальше →