Обновить
52.7

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Как создать карту московских парковок с помощью Kepler.gl

Время на прочтение7 мин
Охват и читатели15K

Несколько месяцев назад вышла первая версия Kepler.gl — нового Open Source инструмента для визуализации и анализа больших наборов гео-данных.


В этой статье я предлагаю вам познакомится с основными возможностями приложения и создать с его помощью две картографические визуализации, которые позволят нам узнать несколько интересных фактов о платных парковках Москвы.




Но сперва несколько слов о том, кто и зачем создал Kepler.gl
Читать дальше →

Строим понятный дашборд по принципу перевёрнутой пирамиды

Время на прочтение4 мин
Охват и читатели6.6K

Так привычно думать, что дашборд — это 2D плоскость, на которой по интуиции раположены графики. Выбираем типы визуализаций и цвет, пишем заголовок и как-то раскладываем элементы на листе. Глаз читает его слева направо, либо хаотично. Дашборд выглядит, как приборная доска в кабине пилота, а заказчик мирится с тем, что нужно посвятить часок другой на то, чтобы вникнуть в серьёзные цифры.


Интуициция срабатывает по-разному. Иногда располагаешь графики буквально «как-то». Хорошо, если расставишь по важности: слева вверху — самые сливки, а справа внизу то, что не будут читать. Можно разбить дашборд на 4 секции и в каждой раскрыть какую-то часть вопроса. Но есть ли какие-то приёмы, чтобы понятно организовать элементы на листе, выбросить лишнее и за 5-6 секунд донести главное?


Перевёрнутая пирамида


Читать дальше →

Визуализация данных для вашего Web-проекта

Время на прочтение6 мин
Охват и читатели20K


Автор: Александр Кашеверов, Senior JavaScript Developer

Добро пожаловать и приятного чтения!

Статья для тех, кто раньше не использовал графики в веб, но собирается. Также для тех, кто хочет глубже познакомиться с этой темой.

Цель — осветить предметную область и упростить проблему выбора конкретного решения. Рассмотрим отличия библиотек и остановим взгляд на популярных вариантах, будут примеры и совсем немного теории.

Для лучшего понимания — необходимо знание JavaScript и общее представление о работе веб.

Конечно, у визуализации данных есть своя история (в статье мы этого касаться не будем), если интересно — можно ознакомиться, например, здесь.

Моя статья, вероятно, не всеобъемлющая, поэтому пишите комментарии и личные сообщения, я готов выслушать критику и дополнить материал.
Читать дальше →

Анализ вакансий HeadHunter

Время на прочтение6 мин
Охват и читатели31K


Однажды мне стало интересно, а что если попробовать проанализировать вакансии и составить по ним некоторые топы. Узнать кому больше всех платят, кто наиболее востребован и много чего еще.

Читать дальше →

Сборник демографических рассказов в одной карте

Время на прочтение2 мин
Охват и читатели16K

fig0


В свежем номере журнала The Lancet опубликована моя статья — любопытная карта и небольшое к ней пояснение. Решил рассказать об этом на Хабре, поскольку есть надежда, что реализованный способ визуализации данных может пригодиться еще кому-то.


Kashnitsky, I., & Schöley, J. (2018). Regional population structures at a glance. The Lancet, 392(10143), 209–210. https://doi.org/10.1016/S0140-6736(18)31194-2

Собственно, вот карта в высоком разрешении (кликабельно).


fig1


Карту можно воспроизвести точь-в-точь за несколько минут, код на гитхабе.


Данные создают цвета

Читать дальше →

Про M и про V и неможко про C

Время на прочтение5 мин
Охват и читатели2.9K

Новость из числа приятно неожиданных пробудила всякие воспоминания, сладкие и не очень. А еще с нее я попал на эту статью, и сразу расхотелось ностальгировать, и захотелось с высоты прошедших семи лет влупить вслед нее увесистое такое многоточие.

Читать дальше →

МИС. Шаблоны исследований

Время на прочтение15 мин
Охват и читатели6.7K


В прошлый раз было описано, какие базовые сущности используются для хранения медицинских данных в МИС Нумеди. Сегодня же предлагаем окунуться в мир шаблонов для протоколов исследований.

Протокол исследования – документ, выдаваемый пациенту на руки. Что же представляет собой шаблон? Красивые картинки и цветные буквы – лишь фасад, а фундамент – структура, хранящаяся в базе данных. По большому счету можно выбрать любой формат описания абстрактных данных, который бы позволил сохранить иерархическую структуру. Мы же остановились на XML.

Шаблоны – это не статические данные, которые заносятся в поле таблицы один раз и забываются. Со временем структура шаблона может измениться. Например, не хватает каких-то измерений, или они, наоборот, лишние, и врач их не заполняет, ставя прочерки или оставляя пустые места. Ещё один случай изменения структуры – расширение функциональных возможностей системы шаблонов или переосмысление старых. Независимо от причины изменений для старой версии шаблона указывается время, до которого он действует, а для нового, в свою очередь, – с какого времени он вступает в силу. Таким образом, все старые протоколы не теряют и не приобретают какие-либо части, и остаются в том виде, в котором были отданы пациенту.

В целом, в системе используется более 15 тегов, и у каждого имеется свой набор атрибутов. С помощью основных тегов, описанных ниже, можно создать шаблон для любого протокола исследования.
Читать дальше →

Визуализация комментариев на ютубе: ролики, каналы, жанры, кросс-жанры

Время на прочтение5 мин
Охват и читатели5.2K
Всем привет! Таннер Стоукс в свое время написал адд-он, переделывающий текст комментариев на ютубе в “herp derp”. Кому-то это сделало жизнь намного лучше. Мы пошли по тому же пути, но немного изменили концепцию. Мы представляем комментарии с ютуба в виде картинок, а точнее графов с вершинами и ребрами. И визуализируем все типы объектов — от роликов и каналов до кросс-жанровых пересечений. Как мы это делаем? Давайте выясним.


Читать дальше →

Принцип работы свёрточной нейронной сети. Просто о сложном

Время на прочтение5 мин
Охват и читатели43K
Глубокие нейронные сети привели к прорыву во множестве задач распознавания образов, таких как компьютерное зрение и распознавание голоса. Сверточная нейронная сеть один из популярных видов нейронных сетей.

В своей основе сверточную нейронную сеть можно рассматривать как нейронную сеть, использующую множество идентичных копий одного и того же нейрона. Это позволяет сети иметь ограниченное число параметров при вычислении больших моделей.


2D Свёрточная нейронная сеть
Читать дальше →

Аналитический паRашют для менеджера

Время на прочтение10 мин
Охват и читатели3.2K

Комментарии в последней публикации «Насколько open-source экосистема R хороша для решения бизнес-задач?» насчет выгрузок в Excel привели к мысли, что имеет смысл потратить время и описать один из апробированных возможных подходов, который можно реализовать не выходя из R.


Ситуация достаточно типична. В компании всегда есть N методик по которым менеджеры вручную стараются строить в Excel отчеты. Даже если их и втоматизировать всегда остается ситуация, когда нужно срочно сделать какой-то новый произвольный срез или сделать представление для какого-либо руководителя в специфическом виде.


А еще есть ряд вручную поддерживаемых словарей в формате excel, чтобы преобразовывать представление данных в отчетах и выборках в правильной терминологии.


В силу того, что никакого подходящего инструмента (масса доп. нюансов будет ниже) так и не удалось найти, пришлось сваять «универсальный конструктор» на Shiny+R. В силу универсальности и параметризуемости настроек, такой конструктор можно легко сажать почти на любую систему в любой предметной области.


Является продолжением предыдущих публикаций.

Читать дальше →

Насколько open-source экосистема R хороша для решения бизнес-задач?

Время на прочтение6 мин
Охват и читатели5.1K

Поводом для публикации послужила запись в блоге Rstudio: «Shiny 1.1.0: Scaling Shiny with async», которая может очень легко пройти мимо, но которая добавляет очень весомый кирпичик в задаче применения R для задач бизнеса. На самом деле, в dev версии shiny асинхронность появилась примерно год назад, но это было как бы несерьезно и «понарошку» — это же dev версия. Перенос в основную ветку и публикация на CRAN является важным подтверждением, что многие принципиальные вопросы продуманы, решены и протестированы, можно спокойно переносить в продуктив и пользоваться.


А что еще есть в R, кроме «бриллианта», что позволяет превратить его в универсальный аналитический инструмент для практических задач?


Является продолжением предыдущих публикаций.

Читать дальше →

Сортировки вставками

Время на прочтение7 мин
Охват и читатели221K


Общая суть сортировок вставками такова:

  1. Перебираются элементы в неотсортированной части массива.
  2. Каждый элемент вставляется в отсортированную часть массива на то место, где он должен находиться.

Траффик

Ближайшие события

На переднем крае науки: анализ статей arxiv.org

Время на прочтение11 мин
Охват и читатели27K
image

Моя специальность — физика конденсированного состояния. Разумеется, в процессе погружения в нее требуется изучать много научных статей, однако на разбор хотя бы одной может уйти немало времени. На arxiv в разделе cond-mat публикуется более тысячи статей в месяц. Складывается ситуация, когда многие исследователи, особенно начинающие, не обладают целостным видением своей области науки. Описанный в этой статье инструмент резюмирует содержимое базы научных статей и призван ускорить работу с литературой.
Читать дальше →

8 способов улучшить визуализацию данных

Время на прочтение3 мин
Охват и читатели12K


При работе с данными важно понимать, как лучше и эффективнее представить их вашей целевой аудитории. Не просто делать графики ради графиков, сделать так, чтобы за несколько секунд человек смог понять, что изображено на графике, что вы хотите этим сказать и какой вывод из него можно сделать.

Существует множество различных трюков, делающих визуализацию понятной, краткой и информативной. Но зачастую проблема кроется в игнорировании даже самых очевидных правил форматирования, поэтому эту статью мы хотим посвятить 8-ми базовым способам улучшения визуализации данных, которые повысят общую читаемость и понимание ваших графиков и диаграмм.
Читать дальше →

One Metric To Rule Them All – Существует ли одна единственная универсальная метрика?

Время на прочтение4 мин
Охват и читатели2.5K
«One Ring To Rule Them All»
J.R.R.Tolkien

«Управлять можно только тем, что можно измерить»
П.Друкер


Когда речь заходит о метриках, то на ум приходят десятки, а то и сотни различных вариантов.
Каких только измерений не придумали!

Но вот беда, когда смотришь на эти красивые картинки, часто бывает совершенно непонятно, что они обозначают.

Да и вообще совершенно неясно, правильно ли были выбраны эти метрики или стоило бы смотреть на совершенно другие?

Хочется какой-то одной метрики, такой, чтобы посмотрел, и всё сразу стало понятно.
Но существует ли она? Или волшебства нет?

Давайте разберемся и посмотрим на конкретном примере…
Читать дальше →

Анализ блокчейн, или почему сломался миксер?

Время на прочтение7 мин
Охват и читатели15K

По материалам моего доклада на конференции «Цифровая трансформация» в Москве 16 апреля 2018 г


Мне интересно, как работает блокчейн. Не только какие там алгоритмы, криптография, платформы и криптовалюты. Для меня блокчейн — не только технология, но и новый вид жизни, новая вселенная. Если вы в этом сомневаетесь, посмотрите на этот граф распродажи токенов Aragon:



Все эти адреса, смарт-контракты, токены постоянно взаимодействуют друг с другом, и за ними стоят действия людей, организаций и роботов. Без этого взаимодействия блокчейн и криптовалюты не имели бы никакого смысла и ценности.


Как работают бизнесы в блокчейн, что там делают люди и роботы — эти вопросы заставили меня заняться исследованием блокчейна.

Читать дальше →

Сортировки обменами

Время на прочтение8 мин
Охват и читатели67K


Если описать в паре предложений по какому принципу работают сортировки обменами, то:

  1. Попарно сравниваются элементы массива
  2. Если элемент слева* больше элемента справа, то элементы меняются местами
  3. Повторяем пункты 1-2 до тех пор, пока массив не отсортируется

* — под элементом слева подразумевается тот элемент из сравниваемой пары, который находится ближе к левому краю массива. Соответственно, элемент справа находится ближе к правому краю.
Траффик

Где же у него кнопка?! Как простому человеку выгрузить данные из Kibana и Elasticsearch и не напрягать при этом разрабов

Время на прочтение3 мин
Охват и читатели30K
Elasticsearch, Kibana и Logstash (ELK) – отличный набор инструментов для сбора и визуализации большого количества данных.

Логи, журналы, события – всё это довольно легко собирается, мапится и отображается в едином инструментарии. Logstash мапит данные, Elasticsearch хранит их, а Kibana отображает в виде графиков.

При всей мощи этой связки, естественно, есть задачи, которые невозможно реализовать через встроенные возможности.

Например, Kibana прекрасно показывает данные в рамках одной таблицы (индекса), но как только дело доходит до объединения разных индексов в одну выборку, она беспомощно разводит руки.

И единственный способ решить задачу в этом случае – выгрузить данные из Kibana и объединить их в любом другом средстве, например, в Excel.

Простой пример. Представьте, что Ваша Ёлка (ELK) собирает и хранит события Jira – по любому изменению любой из задач таск-трекера.

В этом случае в индексе Elasticsearch по одной задаче будет храниться несколько записей:


Читать дальше →