Диаграммы и графики: осмысляя Тафти

    По работе мне периодически приходится визуализировать численные данные — в виде таблиц, диаграмм или графиков. Из последнего прочитанного по теме наиболее интересной показалась известная книга Тафти The Visual Display of Quantitative Information. Я решил сделать из неё краткие выписки по относящимся к моим задачам вопросам. Ключевое слово здесь — краткие. Максимум полезной информации на минимум текста (даже стиль изложения будет подчёркнуто лапидарным). Дополнительные сведения и собственные мысли буду скрывать под спойлер. Надеюсь, мой конспект будет полезен хабрасообществу; предлагаю также поделиться своими наработками и полезными ссылками.

    Чего следует избегать


    1. Рисунков, объёмных изображений, массивных элементов диаграмм, несущих исключительно украшательскую функцию.

    Примеры:









    Причины: Трудно соблюсти правильные пропорции между числами и соответствующими рисунками (ср. фигуры врачей и бочек с числовыми данными). Даже если пропорции соблюдены, психологические исследования показывают, что люди плохо оперируют соотношениями площадей и объёмов изображённых фигур.
    Примечание. Здесь и далее мы не обсуждаем сценарий преднамеренного желания автора исказить картину.

    2. Представлений данных вне контекста.

    Пример. Ниже приведён один и тот же факт (снижение смертности в 1956 году по сравнению с 1955 годом) (а) сам по себе; (б) в контексте более длинного промежутка времени); (в) также в сравнении с показателями соседних территорий:








    Причины: Визуализация — это инструмент анализа данных. Без соответствующего контекста анализ невозможен.

    3. Штриховок.

    Примеры:







    Причины: Эффект муара, рябь в глазах, затрудняющая анализ.
    Примечание. Проблему предлагается решать не с помощью цветов (даже если это возможно технически), а упрощением самой графики.

    4. Украшательств ради украшательств, цветов ради цветов (вырожденный случай пункта 1)

    Пример:



    Причины: очевидны.
    Примечание. Таблица — тоже инструмент визуализации. Не все данные нужно представлять графически. (Также аргументируется, что авторы склонны излишне упрощать графику: скажем, приведённая выше гистограмма с бочками может иллюстрировать сложный экономический текст, требующий известного образовательного уровня для восприятия. Сложность графики должна соответствовать сложности остального текста).

    5. Цветового кодирования.

    Пример:



    Причины: Цветовая шкала плохо воспринимается. Читатель вынужден постоянно возвращаться к «легенде». Утверждается, что даже цветовые переходы в виде радуги плохо интерпретируются. Единственный легко улавливаемый индикатор — насыщенность (т.е., например, оттенки серого допустимы).

    6. Круговых диаграмм.

    Пример:



    Причины: Доказано, что люди плохо воспринимают количественные соотношения между секторами круга. Если данные сложны, анализ с помощью круговой диаграммы невозможен. Если данные просты, лучше привести их в таблице.
    Дополнение
    Мне кажется, что простые «пироги», показывающие вклад частей в целое, имеют право на жизнь в качестве инструмента визуализации:



    А многоуровневый пирог для анализа содержимого диска — вообще прекрасный элемент интерфейса:





    Методы улучшения визуализаций


    1. Вынесение численной информации в графику.
    Если численная информация (географическое расположение, транспортный поток, точка на объекте) может быть отображена на рисунке, имеет смысл сделать это.

    Примеры:


    (Заболеваемость раком по регионам США)


    (Экспорт вина из Франции в различные страны мира)


    (Передвижения и численность армии Наполеона во время Русской кампании)


    (Наиболее частые очаги возникновения меланомы на лице человека)


    2. Увеличение data-to-ink ratio.

    От элементов, не несущих смысловой нагрузки, следует избавляться, тем самым облегчая рисунок.

    Примеры:




    (Цель: показ периодической зависимости атомного объёма от атомного числа. На переработанном рисунке исключены элементы, не соответствующие цели, также добавлены пояснения для атомов «на краях» и для атомов, не вписывающихся в общую картину.)




    (Цель: показ того, что в каждом наборе из двух столбцов левый столбец всегда оказывается выше; длина вертикального штриха, пересекающего столбец, также имеет значение. В переработанном варианте сохраняются только значащие элементы.)



    3. Редизайн существующих стандартных элементов диаграмм (специальный случай пункта 2).

    Примечание
    Мне кажется, это одна из самых важных и противоречивых идей Тафти. Выше мы уже видели, как гистограмма из двух столбцов превращается в штрихи, соединённые «колбасой». Тафти предлагает продолжать модифицировать другие популярные виды диаграмм в том же духе. Здесь я вижу сразу несколько проблем.

    Во-первых, не всегда новое решение мне кажется читабельнее старого. Та же «колбаса» выглядит именно как соединение двух элементов, хотя на самом деле визуализируются два независимых элемента.

    Во-вторых, минимизируя избыточную графику, Тафти уж очень полагается на качество полиграфии. Массивные блоки заменяются точками и штрихами. Кое-где читателю предлагается оценивать значение по концу штриха, не оформленному никаким визуальным «якорем» (жирной точкой, перпендикулярной линией). Очень спорно, на мой взгляд.

    В-третьих, существующие решения — это паттерны. Скажем, одну и ту же таблицу последовательности чисел можно отобразить как в виде гистограммы, так и в виде графика. Семантика этих решений, однако, различна. График отображает непрерывное изменение какого-либо параметра одного. Гистограмма применяется для дискретных значений, а также для отображения величин разных параметров (в этом случае каждый столбец соответствует своему параметру). Таким образом, к графическим решениям Тафти надо привыкать заново. Он считает, что это не проблема, поскольку все старые решения тоже когда-то были новыми.

    В-четвёртых, использование новых элементов затруднительно, поскольку они слабо поддерживаются. Если выполнять чертёж от руки, нет разницы, что отображать. Если же пользоваться инструментами вроде Excel, приходится выбирать из имеющихся в наличии видов диаграмм. Ну или дорабатывать рисунок в графическом редакторе.


    Примеры:

    («Диаграмма Тьюки») Пунктирная линия отображает некоторый диапазон. Границы прямоугольника обозначают первую и третью квартили диапазона, горизонтальная линия внутри прямоугольника — медиану диапазона.
    Примечание
    Этот вид диаграммы полезен, например, в экономической статистике. Скажем, границы диапазона могут показывать разброс доходов, а три горизонтальные линии прямоугольника — уровень дохода, выше которого находится благосостояние трёх четвертей, половины и четверти населения соответственно.







    Обычная гистограмма. Удалена «коробка»; штрихи, ранее обозначенные на оси ординат, выделены с помощью самих столбцов. (Тафти, однако, признаёт горизонтальную линию основы в качестве возможного визуального «якоря»).






    Диаграмма Тьюки с переменной шириной прямоугольника.







    Обычный график с выделенными границами диапазона. Линия оси ординат покрывает лишь фактически присутствующую на графике часть диапазона (тем самым визуализируя минимум и максимум значений).




    Диаграмма разброса (scatterplot). На обеих осях с помощью смещённой линии выделены квартили и медиана. Вместо смещённой линии можно использовать утолщение. Также оси покрывают лишь участок диаграммы от минимума до максимума.







    Dot-dash-plot: вариант диаграммы разброса с возможностью анализа распределения величин по каждой из осей.




    4. Использование данных в качестве элементов оформления
    Примечание
    У Тафти приводится множество примеров хороших визуализаций, однако всё это решения «специального вида». Их полезно изучать как образцы, но применить автоматически в другой задаче вряд ли получится. Поэтому ограничимся самыми простыми примерами.


    График, в котором подписи данных заменяют оси абсцисс и ординат. Отображены лишь реально встретившиеся в графике величины.




    Жизненный цикл японского жука:




    Мимика животного в зависимости от ситуации:




    Заключение


    В целом идеи Тафти сводятся к достаточно простым рекомендациям:
    • не заниматься визуализацией тривиальных данных;
    • избавляться от элементов, несущих только декоративную функцию;
    • избавляться от элементов, затрудняющих анализ данных;
    • максимизировать data-to-ink ratio;
    • по возможности превращать элементы оформления (оси, точки) в элементы данных;
    • по возможности использовать элементы данных в качестве элементов оформления;
    • в рисунках по возможности отображать численные данные в графическом виде.
    Поделиться публикацией

    Комментарии 24

      +1
      Во-первых, правильная цветовая карта прекрасно воспринимается (если она вроде «чем краснее, тем сильнее»).
      Во-вторых, а как тогда вообще на карту данные выносить?
        0
        В данном случае это не оттенки красного (оттенки как раз допустимы) — я так понял, это шестнадцать разных значений для разных ситуаций.
          –1
          В таком случае, конечно, цветовая карта непонятна.
          Но в статье говорилось о любой карте — хоть и пример был неудачной.
            +1
            Давайте я выражусь чётче.

            Индикация разными цветами чего бы то ни было — плохая идея, поскольку это заставляет читателя постоянно лезть в легенду. Особенно это плохо на картах (одно дело скакнуть с гистограммы на легенду и обратно, а совсем другое — с карты и обратно, потому что того участка уже не найдёшь).

            При этом допустима индикация величины какого-либо параметра насыщенностью, т.к. насыщенность хорошо воспринимается глазом.
      • НЛО прилетело и опубликовало эту надпись здесь
          0
          Только мне кажется, что пункты 2 и 3 в разделе «Методы улучшения визуализаций» — это ужасно?
            0
            Мне не кажется. В примере с гистограммой ушла рябь, а в ящике с усами (оно именно так называется, а не «диаграмма Тьюки») стали лучше прослеживаться медианы.
              0
              «Ящик с усами»? Спасибо, буду знать! Тафти называет их «John Tukey's 'box plot'».
            +1
            А ещё — сноски. Они ужасны в диаграммах и графиках, ужасны в иллюстрациях, ужасны в навигации, ужасны везде. Вот тут слева пример троллинга читателей.
              –2
              вертикальный текст уж точно не лучшее решение
              0
              Спасибо! Не со всем согласен, но в целом — очень полезный для аналитика материал.
                0
                зачем доктору ноутбук в 1964 году???
                  0
                  (метро_киевская.jpg)
                  +2
                  Вот эта красная карта смертности приводится как плохой пример визуализации не потому что там используется цветовое кодирование, а потому что оно двухмерное, яркость отвечает за один параметр, а оттенок — за другой. Мы не можем смотреть только на яркость, или только на оттенок, мы воспринимаем цвет как одно целое, и поэтому такая карта непонятна.

                  Тафти разумеется не имеет ничего против цветового кодирования, это было бы идиотизмом. Как, например, на карте иначе разделить воду и землю, или показать лес?

                  Насчет того, что «даже» цветовые переходы в виде радуги плохо интерпретируются. Я не нашел этого в книге, и очень сомневаюсь, что Тафти написал бы «даже», потому что радужные градиенты вообще никогда ясностью не отличались. Они вносят артефакты, и не рекомендованы к использованию. Идеально — показывать высокочастотные компоненты с помощью изменения яркости, а низкочастотные — с помощью цветного градиента. Причем градиент нужно выбирать с умом. В самом простом случае он двухцветный, например от желтого к синему, или от оранжевого к зеленому. Cлева вверху — плохой пример, справа внизу — хороший:

                  Color Coding
                    0
                    Вода и земля, лес и вулканы — это не численная информация. Мы здесь говорим только о числах.

                    Если цитировать Тафти дословно, там сказано следующее: «Color often generates graphical puzzles. Despite our experience with the spectrum in science textbooks and rainbows, the mind's eye does not readily give a visual ordering to colors, except possibly for red to reflect higher levels than other colors.»
                    • НЛО прилетело и опубликовало эту надпись здесь
                    0
                    А остальные его книги планируете также законспектировать?
                      0
                      Ну, представление информации в графическом виде — для меня задача побочная, поэтому я не готов читать всё подряд. Кроме того, по отзывам одни и те же идеи кочуют из книги в книгу. Вот если бы кто посоветовал минимальный комлпект для чтения книг Тафти!

                      На сегодня у меня на столе лежит ещё Envisioning Information. Если понравится, напишу.
                        0
                        По-моему, стоит прочитать все книги Тафти хотя бы из-за эстетического удовольствия, которое они доставляют. Ну и язык в них тоже великолепный.
                          0
                          Понимаю, но когда я смотрю на свой список «прочитать побыстрее», то по самым скромным выкладкам оказывается, что нужно прожить три-четыре жизни.
                            0
                            Знакомая ситуация:) Такие списки очень хорошо сортируются рекомендациями друзей: я взялся за Тафти после того, как количество восторженных отзывов о нем стало зашкаливать
                            0
                            Великолепный, но достаточно сложный, стоит отметить. Без словаря под рукой трудно. Но зато обогащаешь свой лексикон после прочтения.
                            0
                            Envisioning Information моя любимая у него. Самое ценное в его книгах — это примеры и их анализ. Общие рассуждения довольно занудные и повторяются из книги в книгу. Вильям Кливленд например пишет гораздо интереснее и глубже.
                        • НЛО прилетело и опубликовало эту надпись здесь

                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                          Самое читаемое