Обновить
56.59

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Просмотр статистики количества ошибок в проекте, или «Ого, в PVS-Studio появились графики!»

Время на прочтение5 мин
Количество просмотров5.1K
Ошибки исправляют бодро!

Эта заметка будет интересна прежде всего менеджерам проектов и техническим руководителям, в командах которых используется анализатор кода PVS-Studio. В инструменте появилась возможность отслеживать эффективность использования статического анализатора в командах. Теперь вы можете в цифрах доказать босу, что анализатор купленный за несколько тысяч долларов приносит настоящую, видимую пользу. Но эта статья не про ROI, не пугайтесь.

Итак, какая проблема с инструментами статического анализа помимо того, что они стоят дорого? Не всегда команда, которая приобрела инструмент может похвастаться тем, что ошибки с его помощью правятся. А мы как никто другой заинтересованы в эффективном использовании нашего инструмента. Нас не устроит, если клиент просто купит лицензию и положит ее на полку. Ведь у нас более половины клиентов продлевают лицензии на следующий год. Поэтому наша задача показать эффективность использования нашего инструмента для тех, кто принимает решение о продлении лицензии.

Поэтому в PVS-Studio 5.27 появилась возможность строить графики количества ошибок, обнаруженных анализатором при проверке проекта. Идея этой возможности очень простая:
  1. Если вы хотите поправить все ошибки, которые выдает PVS-Studio, то со временем у вас график должен прийти к нулю.
  2. Если вы готовы мириться со старыми ошибками, но правите все новые, то у вас график не должен расти сильно вверх.
  3. В противном случае разработчики просто не используют PVS-Studio. К сожалению, и для нас (мы не получим продление лицензии), и для вас (вы зря потратили деньги на лицензию).
Прежде чем смотреть конкретные графики, буквально пара слов о технологии. Подробнее об этой возможности можно прочитать в документации.

Читать дальше →

Зачем вообще нужны системы бизнес-аналитики

Время на прочтение9 мин
Количество просмотров34K

Визуализация в бизнес-аналитике очень важна. Например, концепт этих графиков отрисован совместно с Infographer.

Проблема со специализированным софтом для бизнес-аналитики в том, что он стоит как самолёт — и нужен только тогда, когда у вас под боком есть большая-пребольшая компания с соответствующим объёмом данных. В целом сейчас на рынке не так уж много спецов, кто такие системы щупал, имеет опыт работы с ними и может толком сказать, что это, зачем оно надо и что даст после внедрения.

Первое и главное применение бизнес-аналитики — это тупо в лоб уметь строить произвольные отчёты, пока руководители подразделений или члены совета директоров совещаются. Один из моих любимых примеров — с какого завода поставлять водку в магазины: с далёкого (дорогая логистика и 2 недели в дороге), но дешёвого по себестоимости производства или же с ближайшего (1 день), но дорогого?

Понятно, что можно поковыряться и ответить через неделю. Но чаще нужно более быстрое моделирование и не сотни разрозненных отчётов, а единая среда, где финансовый специалист может просто взять и получить необходимые данные без привлечения всего IT-отдела. Есть и ещё специфические задачи, которые решают эти и смежные системы. Сейчас расскажу.
Читать дальше →

Исследование Oracle Form при помощи Java Development API(JDAPI)

Время на прочтение2 мин
Количество просмотров8.1K
Для поиска зависимости форма от обьектов базы данных мне нужно было разобрать файл Oracle Form(в дальнейшем — fmb файл).
Fmb — это псевдотекстовый файл, если очень нужно, PL/SQL код можно увидеть и искать как используются обьекты БД там, но все равно трудно понять тип триггера или программы и к какому элементу формы он относится. Можно использовать конвертацию в FMT, но не думаю, что разбор fmt файла легче чем использование API, который дает Оракл.
Тем более, что вся остальная часть моей программы была написана в Java Swing, логичней было использовать JDAPI, который позволяет разобрать форм по полочкам и видеть весь код PL/SQL и properties, которые меня интересовали.
Читать дальше →

В погоне за самим собой, или отличный способ начать свой день

Время на прочтение3 мин
Количество просмотров20K

Перевод поста Mariusz Jankowski "A Rat Race, or a Great Way to Start the Day".
Код, приведенный в статье, можно скачать здесь.
Выражаю огромную благодарность Кириллу Гузенко KirillGuzenko за помощь в переводе.

Не так давно, когда бушевала зима, расчищая подъезд к дому от завалов снега, я решил вспомнить о хорошей погоде, рассмотрев с использованием Wolfram Language свой велосипедный маршрут на работу.

В прошлом году я решил заняться такой весьма распространённой деятельностью, как запись данных своей активности. Я отметил, что за последние несколько лет мои поездки становились все быстрее и давались мне проще по мере того, как сезон приближался к концу, так что мне стало интересно удостовериться в наличии подобных улучшений своей физической формы. Используя лишь смартфон и соответствующее приложение, я записал 27 поездок между домом и работой, а затем использовал Wolfram Language для чтения, анализа и визуализации результатов.

Вот изображение с Google Earth, показывающее мой утренний велосипедный маршрут, имеющий расстояние чуть меньше 18 км, пролегающий с востока на запад.


Читать дальше →

Я негодую: разница между 3D и виртуальной реальностью

Время на прочтение6 мин
Количество просмотров46K

Обучение машинистов у китайского производителя «Сапсанов». Они взяли головной вагон с кабиной машиниста, скопировали все приборы и добавили «вид в окна» с помощью 3D-экранов.

Я занимаюсь технологиями виртуальной реальности для инженеров и для обучения персонала. Это такие системы, где вы лично можете походить по нефтяной платформе или АЭС, отработать меры в случае аварии на практике и своими трудовыми руками в перчатках закрутить Самый Главный Вентиль.

Так вот, заказчики регулярно путают терминологию и технологии, в чём им очень помогают, скажем так, не совсем профессиональные игроки рынка. Я бы хотел внести ясность и ещё раз разложить по полочкам, что есть что. Сразу скажу, что после первой пробы иммерсионной системы все вопросы отпадают, но здесь я даже примерно не смогу передать ощущения, поэтому буду писать слова.
Читать дальше →

48 часов жизни вашей публикации на Хабре

Время на прочтение3 мин
Количество просмотров13K
Кто-то с помощью Хабра пиарится, кто-то ведет свою контент стратегию, а кто-то просто делится интересной информацией. Но всем хочется знать заранее что будет с опубликованным материалом, будет он популярным или нет, понравится ли читателям. Можно ли предугадать сколько просмотров получит статья по первым трем часам ее жизни?

image
Читать дальше →

Простой план-фактный анализ в Power BI Desktop. Часть первая – консолидация и очистка данных

Время на прочтение5 мин
Количество просмотров43K
UPD: Обновил публикации в связи с выходом Power BI Desktop из стадии Preview 24 июля.

Сегодня хочу рассказать про построение простого дашборда с план-фактным анализом доходов и расходов в Power BI Desktop и Power BI. В первой части рассмотрим работу с запросами, научимся объединять данные из нескольких источников и выполнять их очистку.

Исходные данные: несколько файлов Excel в которых хранится информация о показателях доходов и расходов компании за некоторое время. Поскольку форма отчетов и статьи учета несколько раз менялись, то листы с информацией имеют похожую, но не совсем одинаковую структуру. На выходе требуется получить нечто, что позволит руководителям получить представление о том, что происходит с финансами компании
Давайте посмотрим, как Power BI Desktop позволит объединить данные и их визуализировать.

Стартовое окно Power BI Desktop
Рисунок 1. Стартовое окно Power BI Desktop

Читать дальше →

Анализ данных мира Facebook

Время на прочтение12 мин
Количество просмотров29K

Перевод поста Стивена Вольфрама (Stephen Wolfram) "Data Science of the Facebook World".
Выражаю огромную благодарность Кириллу Гузенко за помощь в переводе.
alizar написал краткую заметку об этой статье и описанном в ней функционале Wolfram|Alpha и Wolfram Language. В нашем блоге мы приводим её полный перевод.

Миллионы человек в настоящее время пользуются нашим приложением "Wolfram|Alpha персональная аналитика для Facebook". И, как часть нашего последнего обновления, в дополнение к сбору некоторых анонимных статистических данных, мы запустили программу «донорства данных», позволяющую людям поделиться с нами подробными данными, которые мы используем для научно-исследовательских целей.

Несколько недель назад мы решили проанализировать все эти данные. И, должен сказать, что, это было ни чем иным, как потрясающим примером силы Mathematica и Wolfram language в науке о данных (это также хороший материал для курса по науке о данных, который я начал готовить).

Мы всегда планировали использовать собираемые нами данные для улучшения нашей системы персональной аналитики. Но я не мог сопротивляться своим попыткам заодно и рассмотреть всё это с научной точки зрения.

Мне всегда были интересны люди и их жизненные пути. Но у меня никогда не получалось объединить это с моими научными интересами. До этого момента. Последние несколько недель прошли весьма захватывающе в наблюдении тех результатов, которые мы получили. Одни были ожидаемыми, а другие были настолько непредсказуемыми, что я никогда бы и не предположил ничего подобного. И всё это напоминало о феноменах из моего труда A New Kind of Science (Новый вид науки).

Так как же выглядят данные? Ниже приведены социальные сети несколько доноров данных — группы друзей разбиты по цвету (любой может найти свою собственную сеть, используя Wolfram|Alpha или функцию SocialMediaData в Mathematica (в последней версии Wolfram Language эта функция поддерживает работу с Facebook, GooglePlus, Instagram, LinkedIn, Twitter — прим. ред.)).

image

Читать дальше →

Интервью с координатором проекта Code Club по обучению детей 9-11 лет основам программирования

Время на прочтение9 мин
Количество просмотров11K
Добрый день, Иван
Здравствуйте

Расскажите, пожалуйста, что такое проект Code Club, с чего он начинался, кто его придумал?
Code Club — это британская инициатива по обучению детей 9-11 лет основам программирования. Она возникла около трех лет назад и с тех пор бурно развивается — в начале в самой Великобритании, а спустя некоторое время и по всему миру. В Великобритании сейчас уже более 2000 локаций, там это всё поддерживается на государственном уровне: есть база волонтёров, есть база локаций — всё очень серьёзно организовано. После перехода рубежа в 1000 локаций проект начал выходить на международный уровень. Примерно с лета 2013 года заработал сайт codeclubworld.org — занимаются им те же британцы, но задача у них уже более глобальная: координировать обучение детей программированию по всему миру, дать возможность каждому ребёнку получить знания об основах информатики.

Тогда же, летом 2013-го года было объявлено о старте осенью проекта Code Club в Украине. Были названы первые города, в которых планировалось открытие первых локаций и были контактные данные координатора. Так всё начиналось.

Что входит в программу обучения?
Первые семестры проекта Code Club рассказывают о разработке программ с помощью визуального программирования. Мы учим детей работе в среде Scratch — это разработка MIT, которая создавалась именно под возраст 9-11 лет. В следующих семестрах Code Club изучается HTML, CSS и Python.
Читать дальше →

Icinga2 и безагентный мониторинг серверов Windows средствами WMI

Время на прочтение5 мин
Количество просмотров29K
image

На сегодняшний день, далеко не каждый доволен используемой системой мониторинга ИТ инфраструктуры, а у некоторых она попросту отсутствует. Многие из них имеют явные проблемы с удобством использования, сложностью конфигурации и невысокой производительностью. Именно поэтому, предлагаю взглянуть на новый форк Nagios — Icinga 2, который готов порадовать нас модульной архитектурой, удобным web-интерфейсом, генерацией отчетов и превосходной скоростью работы!
Читать дальше →

Построенные на века: понимание сейсмостойкого строительства

Время на прочтение4 мин
Количество просмотров15K

Перевод поста Yu-Sung Chang "Built to Last: Understanding Earthquake Engineering".
Код, приведенный в статье (со всеми использованными математическими моделями), можно скачать здесь.
Выражаю огромную благодарность Кириллу Гузенко за помощь в переводе.

На прошлой неделе мир был потрясен новостями о крупных землетрясениях и разрушительных цунами в Японии. События всё ещё разворачиваются и могут стать одними из самых трагических стихийных бедствий в новейшей истории.

Научное понимание и моделирование сложных физических явлений и разработка на основе этого анализа обязательны для предотвращения жертв от стихийных бедствий. В этом посте мы исследуем землетрясения с научной точки зрения для того, чтобы понимать, почему они происходят и как к ним лучше готовиться.

Примечание: динамические примеры в этом посте были созданы с помощью Mathematica. Загрузите файл формата (CDF) для взаимодействия с моделями и дальнейшего исследования темы.

Во-первых, давайте начнём с локаций. Следующая визуализация основана на американской базе данных по землетрясениям Geological Survey (USGS), произошедших между 1973 и началом 2011, с магнитудами более 5. Как можно увидеть, эпицентры сконцентрированы в узких областях, обычно на границах тектонических плит. В частности, существует серьезная сейсмическая активность вокруг Тихого океана, а именно в “Огненном кольце”. Так получилось, что Япония находится прямо в середине этой весьма активной области.

Earthquake map

Читать дальше →

Анализ тональности высказываний в Twitter: реализация с примером на R

Время на прочтение10 мин
Количество просмотров19K
Социальные сети (Twitter, Facebook, LinkedIn) — пожалуй, самая популярная бесплатная доступная широкой общественности площадка для высказывания мыслей по разным поводам. Миллионы твитов (постов) ежедневно — там кроется огромное количество информации. В частности, Twitter широко используется компаниями и обычными людьми для описания состояния дел, продвижения продуктов или услуг. Twitter также является прекрасным источником данных для проведения интеллектуального анализа текстов: начиная с логики поведения, событий, тональности высказываний и заканчивая предсказанием трендов на рынке ценных бумаг. Там кроется огромный массив информации для интеллектуального и контекстуального анализа текстов.

В этой статье я покажу, как проводить простой анализ тональности высказываний. Мы загрузим twitter-сообщения по определенной теме и сравним их с базой данных позитивных и негативных слов. Отношение найденных позитивных и негативных слов называют отношением тональности. Мы также создадим функции для нахождения наиболее часто встречающихся слов. Эти слова могут дать полезную контекстуальную информацию об общественном мнении и тональности высказываний. Массив данных для позитивных и негативных слов, выражающих мнение (тональных слов) взят из Хью и Лью, KDD-2004.

Реализация на R с применением twitteR, dplyr, stringr, ggplot2, tm, SnowballC, qdap и wordcloud. Перед применением нужно установить и загрузить эти пакеты, используя команды install.packages() и library().
Читать дальше →

Визуализация геоданных сети референцных станций Санкт-Петербурга

Время на прочтение2 мин
Количество просмотров7.2K

Идея


В октябре 2014 года на Хабре была опубликована статья Яндекса о построении тепловых карт. Тепловая карта — наиполезнейший инструмент, когда требуется представить трехмерные данные на плоскости. В рамках работы над созданием веб-интерфейса по обслуживанию сети референцных станций Санкт-Петербурга возникла идея визуализировать данные, получаемые пользователями на геодезических работах. Также хотелось найти взаимосвязи между деятельностью изыскательных организаций и градостроительными процессами на территории Санкт-Петербурга.
Читать дальше →

Ближайшие события

Brubeck — быстрый, statsd-совместимый агрегатор метрик от GitHub

Время на прочтение3 мин
Количество просмотров20K


История появления


Одной из главных целей команды разработчиков GitHub всегда была высокая производительность. У них даже существует поговорка: «it's not fully shipped until it's fast» (продукт считается готовым только тогда, когда он работает быстро). А как понять, что что-то работает быстро или медленно? Нужно мерять. Измерять правильно, измерять надёжно, измерять всегда. Нужно следить за измерениями, визуализировать всевозможные метрики, держать руку на пульсе, особенно, когда дело имеешь с высоконагруженными онлайн системами, такими как GitHub. Поэтому метрики — это инструмент, позволяющий команде предоставлять столь быстрые и доступные сервисы, почти без даунтаймов.

В своё время GitHub одними из первых внедрили у себя инструмент под названием statsd от разработчиков из Etsy. statsd — это агрегатор метрик, написанный на Node.js. Его суть состояла в том, чтобы собирать всевозможные метрики и агрегировать их в сервере, для последующего сохранения в любом формате, например, в Graphite в виде данных на графике. statsd — это хороший инструмент, построенный на UDP сокетах, удобный в использовании как на основном Rails приложении, так и для сбора простейших метрик, наподобие вызова nc -u. Проблема с ним начала проявляться позже, по мере роста количества серверов и метрик, отправляемых в statsd.
Читать дальше →

Визуализация результатов в R: первые шаги

Время на прочтение5 мин
Количество просмотров31K
В одном из предыдущих постов мы уже писали о центральном понятии в статистике — p-уровне значимости. И пока в научной среде не утихают споры об интерпретации p-value, значительная часть исследований проводится именно с использованием p-value для определения значимости полученных в исследовании различий. Сегодня же мы поговорим о самом творческом этапе обработки данных — как же значимые различия визуализировать.

Читать дальше →

Улицы и Герои

Время на прочтение3 мин
Количество просмотров2.1K
Улицы и Герои

Всем привет. Хочу поделиться с вами своим небольшим проектом, идея которого пришла мне в голову на кануне празднования 9 мая. Тогда я уже никак не успевал реализовать задуманное, так что было решено постараться успеть сделать всё к 22 июня. И вот буквально сегодня ночью доделал. Идея была в том чтобы показать на карте Москвы улицы, названные в честь героев Великой Отечественной Войны.

Все мы ходим и ездим по улицам, названия которых имеют своё историческое обоснование, но мало кто из нас об этом задумывается. Вот и я в процессе сбора данных заново открыл для себя много улиц, о которые даже и не догадывался, что они названы в честь героев. Предлагаю и вам посмотреть знакомые места, узнать новое для себя, и отдать дань памяти людям, пожертвовавшим столь многим ради нас с вами: Улицы и Герои.
Технические подробности

Сбор и визуализация метрик приложения в Graphite и Graph-Explorer

Время на прочтение9 мин
Количество просмотров71K
Зачастую возникает необходимость отслеживать различные параметры работы приложения/сервиса. Например, интерес представляет количество запросов в секунду, среднее время ответа сервера, количество ответов сервера с различным HTTP-статусом (технические метрики), количество регистраций пользователей в час, количество платежных транзакций в минуту (бизнес-метрики) и пр. Без системы сбора метрик разработка и сопровождение продукта происходит практически вслепую.



Данная статья является руководством по настройке системы сбора и анализа метрик приложения на базе Graphite и vimeo/graph-explorer.
Читать дальше →

Данные с Arduino в виде диаграмм и графиков

Время на прочтение10 мин
Количество просмотров65K
Иногда требуется, не считывая детальную информацию с множества датчиков, просто оценить текущее состояние системы и динамику изменения ее состояния за какой-то период. Вот и мне захотелось сделать устройство, показывающее изменения данных с датчиков в виде красивых картинок небольших диаграмм, которые можно просмотреть в окне браузера мобильных устройств или компьютера, подключенных в локальную сеть. При этом определяющим фактором была минимальная стоимость, и простота реализации.

После перебора различных вариантов решения этой задачи обратил внимание на микроконтроллеры Arduino. Плюсом данных устройств является простота получения необходимого «железного» функционала путем простого соединения элементов. Например, для получения возможности соединения с локальной сетью достаточно на основную плату надеть сверху плату сетевого адаптера. Главное, чтобы при этом совпали соответствующие разъемы.

image
Читать дальше →

Экран с бесконечным количеством пикселей

Время на прочтение9 мин
Количество просмотров55K
image

На прошлой неделе я обновил свои мониторы. Выбросил Apple Cinema Display и на их место взял 4К-мониторы от Dell. Как печатнику, мне понравился предыдущий апгрейд с чёрно-белых до grayscale-мониторов в 90-х годах. Но 4К – ещё лучше. Дисплеи высокого разрешения уже пришли на смартфоны и планшеты. Приятно, что они появляются и у ноутбуков и декстопов. Шрифты выглядят чудесно.

Хотя – хорошие шрифты выглядят чудесно. Плохие выглядят хуже – они уже не спрячутся за плохо различимыми гранями грубых пикселей. Если вы работаете с текстом – читаете, пишете, программируете, рисуете (а это охватывает чуть ли не все профессии), то апгрейд на 4К стоит того.

image

Но что есть «4К»? С лёгкой руки маркетологов, это экран размера 3840 на 2160 пикселей (3840 – это ну почти 4000). По каждой из сторон разрешение в два раза больше, чем у HDTV, то есть 1920х1080.

Спервоначалу люди говорили, что у 4К-экранов «в два раза больше пикселей». На самом деле, если вы удвоите количество пикселей линейно, это всё равно, что вы разрежете каждый пиксель как по вертикали и по горизонтали. То есть, на экране 4К в 4 раза больше пикселей, чем у HDTV.

И, что характерно, на этом останавливаться никто не собирается, на горизонте уже дисплеи 7680 х 4320, известные как 8К. С другой стороны, разрешение, воспринимаемое человеческим глазом, имеет границы. Переход на 4К заметен. На 8К – менее заметен. В какой-то момент нужно будет перестать делить пиксели.

Но что, если они не перестанут? Что, если они будут делить пиксели бесконечно? Сколько тогда пикселей будет на экране?

а) по количеству положительных целых чисел
б) меньше
в) больше

Если вам не интересна математика, тогда итог статьи такой: купите 4К-монитор. Не стоит благодарности.
Читать дальше →

Анализ журнала аудита Caché c помощью Caché (DeepSee)

Время на прочтение4 мин
Количество просмотров3.7K
В поставку СУБД Caché, кроме самого сервера базы данных, входит технология для «real-time» бизнес-аналитики DeepSee. Её использование – это наиболее быстрый способ добавить OLAP функциональность к вашему приложению на Caché.

Другим элементом установки является подсистема аудита с web-интерфейсом, возможностью расширения собственными типами событий и API для использования в прикладном коде.

Под катом – небольшой пример совместного использования этих подсистем, позволяющий ответить на вопросы — кто, что, когда делал в информационной системе?
кто, что, когда - в произвольной комбинации