6 принципов эффективной визуализации данных

Автор оригинала: Benedict Neo
  • Перевод

Ключевые принципы создания полезных и информативных графиков


Визуализация данных является важным этапом в процессе постижения науки о данных. Здесь вы представляете свои результаты и сообщаете о них в графическом формате, который является интуитивно понятным и лёгким для понимания.

Визуализация данных требует большой работы, большой труд по очистке и анализу уходит на перегонку и превращение грязных данных в красивые графики и диаграммы. Но даже с подготовленными данными всё равно приходится придерживаться определённых принципов или методологий, чтобы создать полезную, информативную графику.

Тем не менее при написании этой статьи я черпал вдохновение в книге Эдварда Тафта «Beautiful Evidence», которая содержит шесть принципов, посвящённых тому, как сделать графики данных полезными. Именно эти принципы отделяют полезные графики от бесполезных.

Эта статья также в значительной степени вдохновлена книгой Роджера Д. Пенга «Exploratory Data Analysis in R» Она доступна бесплатно на Bookdown, и вы можете прочитать её, чтобы узнать больше о EDA.

Давайте ближе познакомимся с этими принципами.


Пример визуализации данных на Our World in Data



1. Покажите сравнение (контрольная и экспериментальная группы)


Демонстрация сравнения — основа хорошего научного исследования. Доказательства гипотезы всегда связаны с чем-то другим. Возьмём пример: вы говорите: «Тёмный шоколад улучшает концентрацию внимания и способность к обучению». Важный вопрос в этом утверждении — «по сравнению с чем?» Без сравнения (относительная гипотеза) утверждение бесполезно.

Один из способов показать сравнение — контрольная и экспериментальная группы. Люди одной группы будут есть шоколад, люди во второй группе — не будут. Таким образом, вы сможете сравнить влияние шоколада на концентрацию и способность к обучению на основе результатов теста или путём измерения активности мозга.

При создании графиков для презентации вашего исследования вы можете составить график для контрольной и экспериментальной групп с помощью ящика с усами. Таким образом, читатели получают чёткое представление об эффекте эксперимента.

При создании графики для представления вашего исследования вы можете построить график контрольной и лечебной группы с помощью прямоугольной диаграммы. Таким образом, читатели получают чёткое представление о последствиях лечения.

2. Причинно-следственная связь и объяснение


Далее следует объяснение, показывающее причинно-следственную связь в размышлениях над вопросом, на который вы пытаетесь ответить. Если вы показали, что в экспериментальной группе получен эффект, а в контрольной группе его нет, вы должны сформулировать гипотезу из доказательств, почему это так.

Возвращаясь к предыдущему примеру, допустим, что испытуемые из экспериментальной группы получили более высокие баллы по тесту, и это показывает, что тёмный шоколад улучшает концентрацию. Важный вопрос: почему это именно так?

Этот вопрос важен потому, что он помогает поднять другие вопросы, которые могут либо опровергнуть, либо подкрепить вашу гипотезу на протяжении всего исследования.

Чтобы показать причинно-следственную связь или механизм, вы можете измерить активность мозга контрольной и экспериментальной групп и построить графики результатов, показав их рядом. С помощью графика тестовых баллов и графика активности мозга вы увидите причину того, почему принимавшие шоколад испытуемые получили более высокие баллы, т. е. ответ на вопрос, как тёмный шоколад улучшает когнитивные функции.

3. Данные со многими переменными (более двух переменных)


Реальный мир сложен, и отношения между двумя событиями обычно нелинейны. Поэтому в исследованиях у вас есть атрибуты или переменные, которые вы можете измерить. Все эти переменные по-разному взаимодействуют друг с другом. Некоторые из них могут быть путающими, в то время как другие могут быть важными атрибутами, объясняющими взаимосвязь событий.

Как вы уже знаете, корреляция не подразумевает причинно-следственной связи. Поэтому не лучшее решение — ограничивать свое исследование только двумя переменными: это приводит к ошибочным выводам. Таким образом, вы должны показать как можно больше данных на своих графиках. Это может помочь вам выявить любую путаницу в ваших данных.

Возьмем парадокс Симпсона, парадокс в вероятностной статистике, когда «при объединении групп исчезает тенденция, возникающая в разных группах данных». Чтобы проиллюстрировать:

  • Две переменные — отрицательная связь.
  • Три переменные — положительная связь (x, y, z) (есть путающие переменные).

4. Не позволяйте инструментам управлять анализом


Хороший рассказчик знает, как удержать внимание людей, рассказывая историю продуктивно. Рассказчик не ограничивается самой историей, но может уникальным образом выразить историю, сочетая различные виды восприятия и включая множество образов, что делает историю живой.

Аналогичным образом хороший визуализатор данных не ограничивается имеющимися под рукой инструментами для работы с визуализацией. Визуализирующий данные человек имеет возможность переключаться от одной формы выражения (например, линий или кругов) к использованию нескольких режимов представления.

Например, вместо того чтобы создавать отчёты, содержащие только текст, используйте инфографику: изображения, диаграммы, слова, числа и т. д., всё это обогатит информацию. Обладая обилием информации и графиков, читатели могут наблюдать множество различных корреляций доказательства в одном месте. Так что помните, что вы рассказываете историю. Не позволяйте инструментам ограничивать ваше мышление. Пусть анализ управляет инструментами, создаёт сногсшибательные, богатые доказательствами графики.

5. Документируйте свои графики соответствующими метками, шкалами и источниками данных


Когда вы впервые смотрите на график, то сначала видите заголовок, а затем метки контекста графика. Без них график не рассказывает ничего. Хорошие отчёты/графики должным образом документируются, при этом каждому графику присваиваются соответствующие шкалы и метки. Источники данных, используемые для создания графиков, также имеют решающее значение. Таким образом, хорошая практика заключается в сохранении кода, который применялся для генерации данных и графиков: это позволяет воспроизводить данные. Это также добавляет достоверности вашим графикам. Более того, сохраняя код, вы можете редактировать график в случае необходимости.

6. Содержание превыше всего


В конечном счёте, независимо от всех вышеперечисленных принципов, без контента, качественного, актуального и целостного, ваша графика будет бесполезна или она будет вводить в заблуждение. Другими словами, «мусор внутри, мусор снаружи». Прежде чем сообщать о каком-либо результате, убедитесь, что результат — это нечто интересное и важное. Независимо от того, насколько красива или наглядна ваша графика, бесполезные результаты никому не нужны. Нечто интересное — это личный опыт или что-то, навеянное Интернетом. В любом случае всегда задавайте вопросы: так идея становится реальностью.

Заключение


Визуализация данных — это невероятный навык. Вы можете взять данные и превратить их в красивую графику и сюжеты, рассказывающие людям историю. В эпоху, когда данные растут в геометрической прогрессии, всё большее значение приобретает умение рассказать историю с помощью данных. Это лучший момент, чтобы научиться новому. И резюме принципов:

  1. Покажите сравнение.
  2. Покажите причины.
  3. Покажите многомерные данные.
  4. Объедините как можно больше доказательств.
  5. Опишите и документируйте график.
  6. Убедись, что ваша история интересна.

Больше всего я хочу, чтобы вы вынесли из этой статьи вот что: всегда помните, что нужно начинать с хорошего вопроса, использовать правильный подход и представлять только ту информацию, которая необходима для ответа на ваш хороший вопрос.

Я оставляю цитату американского математика Джона Тьюки, который открыл новую эру статистики: 

Простой график привнёс больше информации в сознание аналитика данных, чем любое устройство.

Для более глубокого понимания этих принципов я рекомендую обратиться к книге Роджера Д. Пенга «Exploratory Data Analysis in R» (ссылку на нее я оставлю чуть ниже).

Ресурсы и ссылки


Если вы хотите узнать больше о визуализации данных, посмотрите эти замечательные бесплатные книги:


Платформы, которые демонстрируют красивые визуализации

Руководства по созданию графиков имеются на этих ресурсах

Ссылки для этой статьи


Спасибо, что прочитали!

image



SkillFactory
Школа Computer Science. Скидка 10% по коду HABR

Комментарии 12

    +1
    офигительная подборка ссылок в конце.
    статья хорошая — но от линков пробалдел.
      0

      del

        +3
        Этой статье не хватает визуализации
          0
          посмотрите линки — там изумительные вещи
          +4
          Статья про визуализацию, без виазулизации — это что вообще такое…
            +1

            Где картинки

              0
              По ссылкам картинки, их там слишком много и слишком большой пост бы получился. Хотя от пары тройки для визуализации я бы тоже не отказался xD
              +1
              мусор внутри, мусор снаружи

              Не совсем корректный перевод. Уверен, что правильнее так: мусор на входе – мусор на выходе.

                0
                Многим психологам такой подход помог бы в исследованиях представлении результатов.
                  0
                  Эх, примеры бы ещё, визуальные, в статье про визуализацию
                    0
                    Очень странно. Статья такого рода должна быть полна визуальными примерами. А тут пусто!
                      –1
                      5. Документируйте свои графики соответствующими метками, шкалами и источниками данных


                      МИФИ. 1 курс. Лабы по физике. Самарченко.
                      Одна пересдача и рефлекс вырабатывается сам собой. Никаких умных статей не надо.

                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                      Самое читаемое