Обновить
45.19

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Визуализация интеграционных приложений

Время на прочтение7 мин
Охват и читатели30K
image

С тех пор как я начал выполнять обязанности системного архитектора, мне чаще приходится рисовать прямоугольники и стрелки, чем писать программный код. С этим можно было бы бороться, например, бессонными ночами участвовать в проектах с открытым исходным кодом, создавать подтверждения осуществимости концепции и демонстрационный код, но и там тоже нужно рисовать прямоугольники, чтобы продемонстрировать архитектуру. Эта статья посвящена визуализации обмена сообщениями в распределенных системах, сервис-ориентированной архитектуре (SOA) и микросервисным приложениям при использовании методологии разработки agile (этот термин потерял свое значение, но более подходящего в данном случае нет).
Читать дальше →

Преобразование формы представления данных при помощи Excel+PowerQuery

Время на прочтение5 мин
Охват и читатели17K

В нашем менеджерском труде есть много хорошего и не очень. Но ничто не портит нам жизнь так, как многочисленные эксельки, в которых постоянно нужно что-то ВПР-ить, СУММ-ировать, СУММПРОИЗВ-одить и заниматься прочими рутинными операциями, отнимающими кучу времени и сил. Есть инструмент, позволяющий если не убрать, то минимизировать рутину везде, где есть паттерны данных. Итак, вашему вниманию предлагается чуть более глубокое погружение в принципы работы PowerQuery.
Читать дальше →

Отслеживание хода выполнения в R

Время на прочтение4 мин
Охват и читатели6.8K
Неважно, отдаем ли мы себе в этом отчет, но когда нужно подождать, мы волнуемся и сгораем от нетерпения. Особенно это касается ожидания «вслепую», т.е. когда неизвестно, сколько же еще придется мучиться. Как выяснил Брэд Аллан Майерс, считающийся изобретателем индикатора состояния в 1980-х, возможность отслеживать ход выполнения во время ожидания может значительно улучшить механизм взаимодействия пользователя с приложением (Майерс, 1985).


Типичный индикатор состояния от Simeon87 [GPL], Wikimedia Commons

Поскольку я программирую на R для исследований в биоинформатике, мой код обычно не для широкой публики, но все же важно, чтобы мои пользователи, то бишь коллеги и исследователи, были счастливы, насколько это возможно. Но отслеживание хода выполнения в R — не самая простая задача. В этой статье представлены несколько возможных решений, в том числе и мое собственное (pbmcapply).
Читать дальше →

Intersystems DeepSee. Простая и быстрая визуализация данных

Время на прочтение7 мин
Охват и читатели6.8K
В качестве BI системы нашей организацией была выбрана DeepSee входящая в комплект поставки СУБД InterSystems Cache. Отчасти этот выбор был предопределен тем фактом, что для хранения данных мы используем эту СУБД, поэтому использовать интегрированную BI является лучшим решением.

DeepSee являет собой OLAP кубы которые «смотрят» на выбранную таблицу выбранной области, такие кубы можно фильтровать по всем полям исходной таблицы, что позволяет просматривать данные с любой точки. Например, одной из поставленных задач был вывод информации о родившихся, DeepSee позволил на основе кубов создать таблицы отображающие сколько детей родилось за последний год, разделить их в группы по полу, весу, длине тела, возрасту матерей и месту рождения. Так же для каждого параметра можно задать условия DrillDown – проваливания в параметр, так вместо года мы можем посмотреть сколько всего родилось в конкретный месяц, день, час.

Звучит неплохо, верно? Так оно и есть!
Читать дальше →

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2]

Время на прочтение6 мин
Охват и читатели8.9K


R код (gist) для воспроизведения всех результатов


В первой части, подхваченный вдохновением и желанием проверить гипотезы сразу, я проанализировал взаимосвязь между соотношением полов и распространенностью убийств в странах Европы. Результаты не подтвердили моих ожиданий. Похоже, что во многом страны Европы напоминают регионы одной страны со своей периферией и своими центрами.


В следующей итерации своего скептицизма, результаты которого вы можете прочитать ниже, я проверяю свою гипотезу на данных американских графств, как и авторы исходной статьи.


Коротко о гипотезе

Если вам лень заглянуть в первую часть статьи, то вот кратко суть. Авторы опубликованного в журнале Human Nature исследования утверждают, что соотношения полов во взрослом населении влияет на распространенность тяжких преступлений (в частности, убийств): чем больше женщин, тем больше и преступлений. Я по-прежнему думаю, что все дело в упущенной переменной — центральность/периферийность (urban/rural) — которая и должна объяснять как повышенную долю женщин в городах, так и большее количество преступлений в них.


Убедительно подтвердить свои догадки на простеньких европейских данных мне не удалось. Попробуем на подробных американских.


Читать дальше →

Создание интерактивных графиков с R и Highcharts

Время на прочтение6 мин
Охват и читатели7.9K
Иногда в попытках решить простые задачи приходят в голову великие идеи. Это особенно верно для разработчиков, которые готовы приложить массу усилий для решения простой проблемы к полному своему удовлетворению. Эта история о том, как Торстейн Хенси, основатель и СРО Highcharts искал простой инструмент для создания графиков, чтобы поместить на свою домашнюю страницу замеры глубины снега на Викафьеллет, местной горе, где у семьи был коттедж. Разочаровавшись в обычных flash-расширениях и коммерческих решениях, доступных на тот момент, он решил создать собственное и, конечно же, им поделиться.

Для создания красивых графиков в этой статье я воспользуюсь пакетом highcharter Джошуа Кунста, оболочкой для javascript-библиотеки Highcharts и Shiny.

Пожалуйста, учтите, что все продукты в этой библиотеке бесплатны для некоммерческого использования. Для коммерческих проектов и сайтов воспользуйтесь этим.
Читать дальше →

Информационное моделирование зданий (BIM): как построить стадион (или другое здание) с первого раза и под контролем

Время на прочтение11 мин
Охват и читатели27K

Пересечение CAD-чертежей и актуальной оперативной информации.

Представьте, что у вас 20 строительных площадок, и на каждой что-то каждый день происходит. Вы, естественно, хотите знать, что, как и почему. Раньше вы обходили их ногами, потом стали пользоваться данными веб-камер, а теперь стандартом в индустрии становится информационное моделирование зданий/сооружений, или BIM (Building Information Modelling). Это проектирование, строительство и эксплуатация в одной IDE. Собственно, такой подход уже стал государственным в Великобритании, Сингапуре, Норвегии и Китае. У нас же BIM пока применяется для того, чтобы на этапе предпроекта или проекта визуализировать то, что собираются построить. А ещё сейчас делают первые шаги, чтобы ловить проблемы в момент появления, а не когда о них доложат.

Естественно, было бы странно, если бы всё то, что касается финансов и начинается со слов «очень наглядный», не встречалось бы в штыки.

Ещё пример правильного решения — прокладка новой трассы. Нужно решить задачу расчёта оптимальной траектории, обхода преград, оптимизации выкупаемых участков по кадастру, взаимосвязи с существующей сетью дорог и инфраструктурой. Получается довольно объёмная система нелинейных уравнений, и её решение — только начало BIM.

Или, например, вы строите стадион.
Читать дальше →

Выборы-2016. Часть 2 — удивительное рядом и оно разрешено

Время на прочтение4 мин
Охват и читатели27K

В первой части статьи о выборах 2016 года шла речь о результатах в 225 избирательных округах. В этот раз рассмотрим данные о результатах голосования по участковым избирательным комиссиям (УИК), которых насчитывалось чуть менее 100 тысяч. Этот уровень детализации позволяет увидеть неожиданные явления и удивительные закономерности в результатах голосования.


Читать дальше →

Выборы-2016. Часть 1 — результаты и сравнения

Время на прочтение3 мин
Охват и читатели17K

В сентябре прошли выборы в Госдуму РФ VII созыва. При голосовании вся территория России была разделена на 225 округов. В каких округах каждая из партий получила высокие (или низкие) результаты? Какие значения принимала явка избирателей и как она влияла на результаты партий? Ответы на эти вопросы и ряд других наблюдений представлены в этой публикации.


Читать дальше →

Тематическое моделирование на пути к разведочному информационному поиску. Лекция в Яндексе

Время на прочтение19 мин
Охват и читатели17K
Недавно в Москве прошла конференция Data Fest, организованная сообществом Open Data Science и Яндексом. Этой публикацией мы открываем серию расшировок докладов с Data Fest. Автор первого доклада — доктор наук, признанный специалист по машинному обучению и преподаватель Школы анализа данных Константин Вячеславович Воронцов.


Всякую ли поисковую функцию выполняет Яндекс или Google? К сожалению, пока нет. Существуют такие типы поиска, при которых никакая выдача не будет считаться правильной. И дело даже не в релевантности, а в том, что нужен другой поиск — помимо привычного нам всем. Под катом вы найдете расшифровку лекции о разведочном поиске, а также большинство слайдов.

Простой класс для построения линий уровня двумерной сеточной функции

Время на прочтение6 мин
Охват и читатели5.9K
При обработке данных в предметных областях, связанных с научной деятельностью, часто возникает необходимость в построении и визуализации функции двух независимых переменных. Типичным примером является необходимость визуального представления результатов решения двумерных дифференциальных уравнений в частных производных, получаемых в виде так называемых сеточных функций.

Предлагается простой класс для построения линий уровня (изолиний) функции: Z=F(X,Y) в виде линий на плоскости X-Y, удовлетворяющих уравнениям Z=const (где const — набор заданных значений).
Читать дальше →

Хакатон по данным криминальной статистики

Время на прочтение2 мин
Охват и читатели8.6K


У нас хорошая новость — наконец-то организуем хакатон по данным криминальной статистики, уже в следующие выходные: 22-23 октября.
Читать дальше →

Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2]

Время на прочтение10 мин
Охват и читатели21K


UPD Добавил R код (gist) для воспроизведения всех результатов


Исследование, недавно опубликованное в престижном научном журнале Human Nature, обнаружило, что преобладание женщин сопряжено с более высокой преступностью. Вывод сильно противоречит житейскому представлению о том, что где мужчины, там и преступления. Однако он находит поддержку в сравнительно молодых теориях формирования брачных рынков.


Несмотря на стройность использованных в исследовании методов, мне кажется, в нем упущена важная переменная, возможно, ключевая. Было бы прекрасно проверить на тех же данных, но авторы их не публикуют приложением к статье, а собрать самостоятельно — довольно большая работа. Пока решил пойти другим путем — устранить проблемную переменную из дизайна исследования.


Я проверил, наблюдается ли подобная закономерность в Европе на уровне стран. Заинтересованных прошу под кат.


Немного об этом посте не слишком хабровского формата

Изначально мое внимание к исследованию привлек пост в блоге демографа Бориса Денисова. В дискуссии с ним же родилась идея проверить закономерность на странах Европы. Проверил. Результаты интересные. И стал думать, где опубликовать. В очередной раз пришел к выводу, что лучше хабра варианта нет. Понимаю, что тема, вероятно, заинтересует меньшую часть аудитории сообщества. И все же я надеюсь на доброжелательное отношение и ценные комментарии — очень хочется услышать мнения "со стороны". Что касается категоризации статьи — думаю, на хабре не помешал бы хаб (или даже поток) "Академия" (писал от этом раньше в комментарии).


В свое оправдание могу сказать, что те, кому не интересна демография, найдут в этом посте R код, позволяющий в автоматическом режиме скачать данные о населении из двух прекрасных баз данных — Eurostat и Human Mortality Database и воспроизвести все графики, включая и карты. (Ссылка на код в конце статьи)

Читать дальше →

Ближайшие события

Алгоритм визуализации сложных данных

Время на прочтение9 мин
Охват и читатели28K
За три года существования Лаборатория данных выпустила около тридцати интерактивных визуализаций, в формате заказных, собственных проектов и бесплатных советов. Мы в лаборатории визуализируем финансовые и научные данные, данные городской транспортной сети, результаты забегов, эффективность маркетинговых кампаний и многое другое. Весной мы получили бронзовую медаль на престижной премии Malofiej 24 за визуализацию результатов Московского марафона.

Последние полгода я работаю над алгоритмом визуализации данных, который систематизирует этот опыт. Моя цель — дать рецепт, который позволит разложить любые данные по полочкам и решать задачи по визуализации данных также чётко и последовательно, как математические задачи. В математике не важно, складывать яблоки или рубли, распределять кроликов по ящикам или бюджеты на рекламные кампании — есть стандартные операции сложения, вычитания, деления и т.д. Я хочу создать универсальный алгоритм, который поможет визуализировать любые данные, при этом учитывает их смысл и уникальность.

Я хочу поделиться с читателями Хабра результатами своих исследований.


Читать дальше →

Ontodia + Caché — визуализатор онтологий для навигации по хранимым сущностям InterSystems Caché

Время на прочтение6 мин
Охват и читатели3.7K

Про библиотеку Ontodia


Для начала имеет смысл остановиться на том, что же такое Ontodia и что такое СУБД Caché. Пожалуй, начнем с пока что менее известного продукта — Ontodia. Ontodia — это результат совместного проекта международной лаборатории ISST Университета ИТМО и компании VISmart, занимающейся разработкой программного обеспечения в области семантического веба (semantic web). Сервис Ontodia изначально был веб приложением, предназначенным для визуализации исключительно связанных данных (linked data) и онтологий. Мы создали этот сервис, потому что не сумели найти простых, доступных и эффективных инструментов понятной визуализации связанных данных семантического веба.
Читать дальше →

Как герои игры OverWatch однажды облысели, а мы вернули им шевелюры

Время на прочтение5 мин
Охват и читатели14K
image
Одной из возможностей Parallels Desktop 12 для Mac является поддержка РС-игр. Существуют множество игр, доступных только для Windows и Xbox, и с помощью Parallels Desktop в эти игры можно играть на Mac без перезагрузки — внутри виртуальной машины. Можно ли считать, что проблема игр для PC на Mac полностью решена? Пока нет, но мы работаем над этим. В этой статье описаны несколько примеров того, как мы это делаем.
Читать дальше →

Домашний алгоритм разбиения на слова (c картинками)

Время на прочтение3 мин
Охват и читатели9.9K
В этой статье я расскажу и покажу свой способ сегментации строк на слова. Если вам не интересна жизнь сибиряка в тропиках, можете смело пропускать вступление.

image
Читать дальше →

Как отобразить динамическую выгрузку из БД на страницах Atlassian Confluence?

Время на прочтение4 мин
Охват и читатели21K

На рынке существует огромное количество wiki-движков корпоративных баз знаний. Если вы используете Atlassian Confluence, вам наверняка будет интересно узнать, как расширить стандартные wiki-возможности системы. И использовать Confluence, в том числе, в виде витрины для динамического отображения любой полезной информации, например:

  • метрик вашего продукта,
  • Agile-метрик по работе команд,
  • графика роста численности вашей команды,
  • списка ближайших дней рождений,
  • и т. д.
В этой статье я хочу поделиться своим опытом, как наиболее красиво и удобно отображать подобную информацию на страницах Confluence.
Читать дальше →

Анализ данных с электросчетчика Eastron SDM220 средствами ThingSpeak

Время на прочтение5 мин
Охват и читатели12K
Всем привет. В статье на geektimes я рассказывал, как подключиться к электросчетчику Eastron SDM220-Modbus и забрать с него данные по шине RS-485. Сегодня я хочу рассказать про сбор и анализ статистических данных о потреблении электричества в доме.


Читать дальше →

Визуализация и работа с историческими данными: интерактивные карты и linked data базы знаний для изучения истории

Время на прочтение8 мин
Охват и читатели23K
Порой глянешь по сторонам и кажется, что современного мира вне IT не существует. Однако есть области человеческой жизни, очень слабо затронутые компьютеризацией. Одна из таких областей — история. И как наука, и как учебный курс. Конечно, работа за компьютером едва ли когда-то заменит историкам ковыряние в архивах. Но уж изучать историю по нарисованным в учебнике статическим картам, а порядок событий выстраивать, тщательно выписывая на бумажку даты в порядке возрастания — это точно прошлый век. Однако инструментов для наглядного изучения истории не так-то много и найти их очень непросто.

Если вы хотите узнать, какие есть интерактивные исторические карты, где стоит посмотреть на представление событий в форме таймлайнов и как делать сложные запросы к википедии типа «все государственные деятели, работавшие в Европе в 1725 году» — читайте дальше.
Читать дальше →