Обновить
40.18

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Визуализация кибератак в реальном времени

Время на прочтение1 мин
Охват и читатели28K


Понаблюдать своими глазами за кибервойной можно с помощью Norse Live Attack Map. На этой карте отображаются данные с оборудования компании Norse, расположенного более чем в 40 странах. Атаки ведутся на специально сформированные небольшие инфраструктуры-приманки с якобы ценными данными. Информация обновляется ежесекундно.

Реальные атаки на этой карте не видны, но с ее помощью можно наблюдать за самыми распространенными видами и источниками атак. В данный момент лидирует атака на 694 порт. Если смотреть некоторое время, то можно увидеть, что большинство угроз исходит из Китая и Канады, а основной целью являются США.

Интересным моментом также является то, что кроме распространенных портов ssh, telnet и т. д. выделяются два неизвестных: 53003 и 21320. Возможно, с помощью этого инструмента можно будет отслеживать использование новых эксплоитов.

Редактор структурированных данных общего назначения

Время на прочтение4 мин
Охват и читатели12K
Начиналось все с простой потребности в наведении порядка в файлах. Почему уже 2014 год, а до сих пор нет простого и удобного редактора деревьев хотя бы?
Текстовых редакторов — несметное множество и все равно появляются новые. Редакторов таблиц — поменьше, но жаловаться приходится только когда количество данных исчисляется тысячами.
А ведь самих-то способов представления информации не так много:
Строка, Список, Таблица, График, Диаграмма, Карта, 3d
Разумеется, есть огромное множество разновидностей этих видов, но количество достаточно популярных не превышает десятка.
По своей сути эти способы можно подразделить по количеству одновременно отображаемых характеристик.
Одномерные: список, временная шкала, хронометраж и т.п.
Двумерные: таблица, карта, график, гистрограмма и т.п.
Трехмерные: в основном нестандартные сложные научные 3d-визуализации
Многомерные: деревья, графы, сети

Визуализаций данных уже создано в избытке и продолжают изобретать новые. Для одних только деревьев известно под 3 сотни вариантов: treevis.net
А вот редакторы существуют для весьма малого количества самых популярных.
И в отношении многомерных данных существует огромный пробел.
Читать дальше →

Lean Big Data на 6 сервисах Google

Время на прочтение5 мин
Охват и читатели20K
image

Здравствуй Хабр! Хочу рассказать как мы делали свою собственную Big Data.

Каждый стартап хочет собрать что-то дешевое, качественное и гибкое. Обычно так не бывает, но у нас, похоже, получилось! Ниже идёт описание нашего решения и много моего сугубо субъективного мнения по этому поводу.

И да, секрет в том, что используется 6 сервисов гугла и собственного кода почти не писалось.
Читать дальше →

[Перевод] Не стоит бояться функционального программирования

Время на прочтение15 мин
Охват и читатели38K
Представляю вашему вниманию перевод проскользнувшей недавно в ссылках дайджеста статьи Джонатана Моргана о функциональном программировании на примере JavaScript. Материал рассчитан на начинающих, но тем не менее он достаточно интересен.

Буду признателен за конструктивные замечания и предложения по опечаткам, переводу и/или оформлению. Приятного чтения!
Читать перевод

Визуализация алгоритмов

Время на прочтение2 мин
Охват и читатели37K
Специалист по дата-майнингу и визуализации данных Майк Босток (Mike Bostock) опубликовал великолепную подборку с визуализацией различных алгоритмов.

Работа уникальная, в своём роде, потому что в этом случае графическое отображение особенно сложно сделать: ведь, по сути, нет данных для анализа. «Но алгоритмы также демонстрируют, что визуализация — это больше, чем просто инструмент для поиска закономерностей среди данных, — пишет Майк Босток. — Визуализация использует зрительную систему человека, чтобы расширить человеческий интеллект: с её помощью мы лучше понимаем важные абстрактные процессы и, надеюсь, другие вещи тоже».

Проще говоря, зрение помогает нам думать.
Читать дальше →

RuSSIR 2014: VIII летняя школа по информационному поиску

Время на прочтение3 мин
Охват и читатели3.5K
18–22 августа 2014 года в Нижнем Новгороде пройдет VIII Российская летняя школа по информационному поиску «RuSSIR 2014». До этого школа проходила в Екатеринбурге, Таганроге, Петрозаводске, Воронеже, Санкт-Петербурге, Ярославле и  Казани.

В этом году её организуют Национальный исследовательский университет «Высшая школа экономики» и Российский семинар по Оценке Методов Информационного Поиска «РОМИП» при участии Яндекса, Mail.ru, Google, ABBYY и Лекториума.

Главной темой школы будет визуализация данных в задачах информационного поиска. Рабочий язык — английский.



Программа школы включает шесть основных курсов, пленарный курс и доклады спонсоров, а также конференцию молодых ученых «RuSSIR Young Scientist Conference».

Основные курсы:
  • Katja Hofmann (Microsoft Research) — Online Experimentation for Information Retrieval;
  • Alfred Inselberg (Tel Aviv University) — Visualization & Data Mining for High Dimensional Data;
  • Dmitry I. Ignatov (Higher School of Economics) — Introduction to Formal Concept Analysis and Its Applications in Information Retrieval and Related Fields;
  • Preslav Nakov (Qatar Computing Research Institute) — Web as a Corpus: Going Beyond the n-gram;
  • Sujatha Das G., Cornelia Caragea, Xiaoli Li, C. Lee Giles — Document Analysis and Retrieval in Scientific Digital Libraries;
  • Paolo Rosso (Universitat Politecnica de Valencia) — Author Profiling and Plagiarism Detection.

К участию в школе приглашаются студенты, аспиранты, исследователи и разработчики. Всего планируется принять до 120 слушателей. Участие бесплатное; для тех, кто в этом нуждается, организаторы предоставляют гранты на проживание (количество ограничено).
Как попасть?

Как запилить свой дешборд на все случаи жизни?

Время на прочтение9 мин
Охват и читатели83K
В работе почти каждого человека непременно есть цифры, от которых зависит всё. Посещаемость сайта, время отклика или количество коммитов — что угодно! И если поместить эти цифры на самое видное место, они сразу становятся либо отличным способом оперативно принимать решения, либо просто наглядным инструментом мотивации. А самый лучший способ сделать это — это собственный дешборд, информационное табло, которое можно повесить на самом видном месте в офисе.


Читать дальше →

Про корреляцию и не только

Время на прочтение2 мин
Охват и читатели7K
image
Иногда, имея на руках данные, чувствуешь нехватку стандартных инструментов. Особенно это касается случаев, когда за числами стоит динамический процесс, который постоянно норовит сменить внутреннее состояние.
Под катом автор постарается показать, как, используя нехитрый трюк, из обычных данных можно вытащить горы разнообразной информации. В этих горах можно обнаружить самые сокровенные подробности изучаемого процесса, вопрос лишь в любознательности и некоторой доле везения.
Читать дальше →

Новый перспективный жестовый интерфейс

Время на прочтение1 мин
Охват и читатели17K


Исследователи из Лаборатории Исикавы и Ватанабэ (Япония) совместно с независимой компанией zSpace, специализирующейся на создании интерактивных голографических дисплеев, создали прототип системы распознавания жестов, которая с высокой скоростью и точностью реагирует на движения рук и пальцев пользователя.
Читать дальше →

Раздача научного софта. Бесплатно

Время на прочтение6 мин
Охват и читатели68K

Так уж получилось, что до того, как стать физиком, я хотел быть программистом. Не сложилось, но тяга писать программки не прошла. Как результат — за 15 лет работы в науке, было написано приличное количество разнообразного прикладного софта. Конечно, большая часть была совершенно одноразовой, и мотивацией для ее написания была фраза из мультика — «лучше день потерять, потом за пять минут долететь». Но некоторые вещи оказались долгоиграющими, пошли «в народ», кое-что даже продается. Для продажи этого «кое-чего» даже был создан сайт, ориентированный на «заграницу», но это было сделано больше ради эксперимента, а не с целью заработать какие-то реальные деньги, тем более что софт по большей части очень специфический, и спрос на него не велик. Но хватит о коммерции.

Я бы хотел совершенно безвозмездно поделиться частью своих наработок (тем, что не очень стыдно показать) с хабрасообществом, в надежде, что они могут оказаться полезными для молодых (и не очень) ученых, аспирантов и студентов, и кто-то сможет использовать их в своей работе. Вашему вниманию предлагается следующее (в порядке возрастания специфичности):
  • SciRef — менеджер цитирований.
  • AFM Vision — удобная визуализация данных атомно-силовой микроскопии.
  • Raman 2D — построение карты распределения интенсивности Рамановского излучения.
  • X-Ray Calc — симуляция рентгеновской дифракции тонких пленок.

Подробное описание возможностей, скриншоты (много) и ссылки — под катом.
Читать дальше

Точная видео-модель эволюции Вселенной: Illustris (+ модель рождения галактики и конца Вселенной)

Время на прочтение1 мин
Охват и читатели48K


Команда астрофизиков из Кембриджа смогла создать достаточно достоверную модель эволюции Вселенной, начиная от самого рождения, Большого Взрыва. Стоит отметить, что разработать такую модель, используя стационарный (пусть даже мощный) ПК — практически невозможно. Дело в том, что ученые накопили огромный фактический материал о рождении Вселенной, так что просчитать все это — дело многих тысяч лет (если использовать стационарный ПК).

К счастью, у астрофизиков есть доступ к более мощным машинам, чем домашний компьютер. В общем, все данные были обработаны на системе с 8 тысячами процессоров. И то, разработка такой модели заняла около пяти лет. Сам проект получил название Illustris.

Читать дальше →

Spurious Correlations: сервис для «игры» с любыми наборами статистических данных

Время на прочтение2 мин
Охват и читатели8.6K


Во многих научных и не очень научных статьях мы можем видеть достаточно солидный набор каких-либо статистических данных. Наборы таких данных часто сравниваются, для выяснения возможной связи. Ну, к примеру, ученый может связать периодические климатические изменения и изменение популяции устриц в каком-либо регионе. На основе таких наборов данных делаются далеко идущие выводы, а также прогнозируется динамика популяции устриц на ближайшие десятилетия.

Есть и менее явные корреляции, когда сравнивают изменения магнитного поля, например, и количество заболеваний вирусом гриппа. Часто такие данные коррелируют весьма хорошо, и непосвященный человек бывает весьма впечатлен.

Однако, многим известно что играть со «средней температурой по больнице» можно как угодно, используя полученные данные для доказательства какой угодно теории. И сервис Spurious Correlations показывает, что это действительно так. К примеру, вы можете видеть, что графики возраста «Мисс Америка» разных лет удивительным образом коррелируют с графиком количества смертей из-за пара и\или разного рода горячих объектов.

Читать дальше →

Подглядываем за метаниями нейронной сети

Время на прочтение8 мин
Охват и читатели32K


В комментариях к моей предыдущей статье о происходящем в нейронной сети проскользнула фраза, что, к сожалению, визуализация процессов обучения редко бывает возможна на реальных задачах с большими данными. Действительно очень жаль. Давайте же попытаемся это исправить. Под катом я предлагаю простую и, как ни удивительно, информативную визуализацию процесса обучения нейронной сети, не зависящую ни от характера задачи, ни от свойств самой сети, то есть доступную для сколь угодно сложной задачи.
Читать дальше, с картинками

Ближайшие события

Наbra Analytics Tools: аудитория хабов

Время на прочтение2 мин
Охват и читатели6.7K
Исследуем аудиторию

Перед каждым автором на Хабре встает вопрос: «В какие же хабы разместить статью»? Безусловно, ответ прежде всего зависит от темы. С другой стороны, многие статьи достаточно широкого профиля и приходится тщательно выбирать в какие три хаба написать. Сам Хабр такого инструментария для анализа не предоставляет. А что делают обитатели хабра, когда инструмент нужен, а его нет? Они его пишут!

Тогда же мне пришла мысль, что неплохо было бы иметь простой визуализатор, который бы выдавал простую статистику по хабам и их совместной аудитории, например вот так:



По картинке сразу видно, насколько пересекаются читатели различных хабов и имеет ли смысл заменить какие-либо из них.
Читать дальше →

Как алгоритмы придают очертания нашей жизни

Время на прочтение1 мин
Охват и читатели9.5K
Мы сегодня немного переосмыслили роль современной математики — не только финансовой математики, а математики в общем. Её переход от того, что мы извлекаем и выводим из наблюдений за миром, к тому, что начинает формировать — мир вокруг нас и наш внутренний мир. Kevin Slavin «How algorithms shape our world» TED 2011

image
(на фото/картинке «Амплитудная модуляция» высот гор индексом doy jones 1980-2009, Michael Najjar)

Если алгоритмы выйдут из строя, как мы узнаем об этом?

— что общего между алгоритмами маскировки/локации самолета невидимки и алгоритмической торговлей?
— как хаос помогает Netflix рекомендовать фильмы?
— кто в ответе за "черный вторник" 2010,
— чем отличаются траектории умных пылесосов?
— как оптимально «упаковать» людей в лифты?
— откуда начинается интернет в Нью-Йорке?
— как алгоритмы продавали книгу за 23 млн долларов
— почему чтобы делать деньги из воздуха нужно лезть в воду?
— терраформирование на службе оптимизации алгоритмов

под катом видео с русскими субтитрами Kevin Slavin: How algorithms shape our world (3 000 000+ просмотров)
Читать дальше →

Песочница дополненной реальности

Время на прочтение1 мин
Охват и читатели41K


Это удивительная песочница представляет собой интерактивный инструмент для обучения детей. Создавая своими руками ландшафты из песка, маленькие демиурги сразу же получают горы, ущелья, вулканы, долины и реки.

Этот проект создан командой специалистов по геологии и визуализации. Система построна на основе камеры Microsoft Kinect, работающей в связке с топографическим ПО и 3D-проектором. Немало времени ушло у авторов, чтобы научить своё детище быстро и точно реагировать на действия детей.
Читать дальше →

План-факт, динамика и прибыль на одной диаграмме c помощью R

Время на прочтение2 мин
Охват и читатели9.7K
Каждый раз, когда подводятся финансовые итоги прошедшего года и готовится соответствующая презентация, люди ломают голову, как бы уместить основные цифры на одной диаграмме. Какова бы ни была сфера деятельности организации, подведение итогов, как правило, начинается с анализа основных финансовых показателей, отдельно по каждому из бизнес-направлений:
  • оборот в завершившемся году (фактические цифры);
  • установленные ранее планы на завершившийся год (для анализа выполнения);
  • оборот годом ранее (для понимания динамики);
  • прибыльность.
Стандартная столбчатая диаграмма, которую можно на скорую руку построить в Excel, даёт, мягко говоря, не совсем наглядный результат. К примеру, если у бизнеса четыре направления, то на диаграмме появятся 16 рядом стоящих столбцов, и кто-то может с непривычки спутать передовиков и отстающих.
Специалисты, знакомые с R, могут использовать ggplot2 для программного построения нужной диаграммы, например, такой как здесь. Для примера взяты цифры за 2012 год из годового отчета компании Unilever. Плановые показатели не относятся к публичным данным, поэтому пришлось их выдумать из головы, установив, для определенности, на уровне «прошлый год + 5%».
Исходные цифры находятся в Excel и выглядят так (данные в миллионах евро):
image
Построенная в RStudio диаграмма выглядит следующим образом:
image
Проверьте диаграмму на интуитивность, и не глядя на цифры, предположите, какому показателю какой элемент диаграммы соответствует, а объяснения будут далее.
Читать дальше →

Гармонические колебания

Время на прочтение10 мин
Охват и читатели287K
На хабре было несколько статей по преобразованию Фурье и о всяких красивостях типа Цифровой Обработки Сигналов (ЦОС), но неискушённому пользователю совершенно не понятно, зачем всё это нужно и где, а главное как это применить.


АЧХ шума.

Лично мне после прочтения этих статей (например, этой ) не стало понятно, что это и зачем оно нужно в реальной жизни, хотя было интересно и красиво.
Хочется не просто поглядеть красивые картинки, а так сказать, ощутить нутром, что и как работает. И я приведу конкретный пример с генерацией и обработкой звуковых файлов. Можно будет и послушать звук, и поглядеть его спектр, и понять, почему это так.
Статья не будет интересна тем, кто владеет теорией функций комплексной переменной, ЦОС и прочими страшными темами. Она скорее для любопытствующих, школьников, студентов и им сочувствующих :).
Читать дальше →

Введение в D3

Время на прочтение6 мин
Охват и читатели142K

D3.js (или просто D3) это JavaScript-библиотека для обработки и визуализации данных. Она предоставляет удобные утилиты для обработки и загрузки массивов данных и создания DOM-элементов. Эта заметка описывает работу с основными методами библиотеки, она подойдёт для изучения основ библиотеки и погружения в её логику и возможности.

Для понимания статьи пригодятся знания JS, HTML и CSS.

Читать дальше →

Проблема космического мусора

Время на прочтение3 мин
Охват и читатели63K


Каждому из нас известно, что человечество невероятно загадило свою планету и ежедневно продолжает генерировать невероятное количество мусора. Но немногим известно, что за недолгий период освоения космоса мы успели превратить околоземное пространство в небольшую свалку отработанных спутников. Здесь представлены две интерактивные визуализации, отражающие сложившуюсь ситуацию.

Первая визуализация (автор Alex Rasmussen) отражает все известные и отслеживаемые спутники и обломки:

  • Зелёными точками обозначены действующие спутники.
  • Серыми — неактивные, но работоспособные.
  • Красными — вышедшие из строя спутники и их обломки.

Читать дальше →