Квартет Анскомбе

    Статистика — это такой инструмент… Очень страшный в неумелых руках. В умелых того страшнее, способен разорвать мозг на куски.

    Вот есть последовательности A, B, C и D, про которые известно следующее:
      A B C D
    Среднее значение x 9.00 9.00 9.00 9.00
    Дисперсия х 10.00 10.00 10.00 10.00
    Среднее значение y 7.50 7.50 7.50 7.50
    Дисперсия y 3.75 3.75 3.75 3.75
    Корреляция между x и y 0.82 0.82 0.82 0.82
    Прямая линейной регрессии y = 3 + 0.5 x y = 3 + 0.5 x y = 3 + 0.5 x y = 3 + 0.5 x
    То есть все указанные величины для них совпадают. По крайней мере, до второго знака после запятой.А теперь смотрим глазами:
    Anscombe's quartet


    Такая вот картина маслом. Можно скачать .XLS с данными для самостоятельного изучения.

    Придумал эту штуку британский статистик Ф.Дж. Анскомбе, и называется она «квартет Анскомбе». Поговорку про среднюю температуру по больнице все слышали, а теперь у вас есть к ней хорошая иллюстрация.

    Про квартет Анскомбе в английской википедии.

    UPD: началось портирование этой статьи в русскую википидею, и там правильно замечают, что автора следует называть Френсис Энскомб.

    Комментарии 68

      0
      Как известно, есть правда, есть ложь, а есть статистика. Вечная истина.
        +21
        Я слышал в более жестком варианте: «Есть три вида лжи: ложь, наглая ложь и статистика».
          –1
          Еще более жесткий вариант звучал так: «Есть маленькая ложь, большая ложь и советсткая статистика».
          +16
          Поправочка:
          Существуют три вида лжи: ложь, наглая ложь и статистика. (Марк Твен)

          Но мне больше по нраву:
          По статистике один пешеход попадает под колеса автомобиля каждые 17 минут. Бедняга! (Янина Ипохорская)
          0
          Здорово! То, что доктор прописал для презентации по моей бакалаврской =)
          Благодарю за информацию!
            0
            Учтите, что в третьем и дальнейших знаках некоторые значения на самом деле не равны.
              0
              Само собой, но оживить презентацию эта информация способна :)
              А то сплошные формулы, код, графики… надо было попроще брать тему…
                +3
                А как тема звучит?
                  +1
                  В переводе на русский звучит примерно как: «Разработка алгоритмов и программ статистического оценивания с применением пакета R»
                    +1
                    сначала руководителю покажите — возможно в комиссии люди будут без юмора, не стоит рисковать работой!
                      +1
                      И это… обратите внимание, что автора, оказывается, зовут Энскомб.
                      Пруфлинк.
                  0
                  Здесь дело не в знаке, можно подобрать точки так, чтобы значения были в точности равны, а картинки выглядели так же. Эти картинки нам просто показывают, что статистическая информация — это просто усреднение, которое часто не отражает реальную природу данных.
                    +16
                    Скажем так: нельзя ограничиваться несколькими статистическими показателями без подробного анализа данных.

                    Особенно это касается любимого всеми коэффициента корреляции: постоянно забывают, особенно всякие журналисты, что статистическая взаимосвязь не означает причинно-следственную взаимосвязь.

                    Классический пример:
                      +21
                      Люди, которые делают утреннюю зарядку, умирают в сто раз реже остальных. Потому что их в сто раз меньше, чем остальных.
                        0
                        Туда же, ага.
                      • НЛО прилетело и опубликовало эту надпись здесь
                          +6
                          Пресвятые макароны!
                            0
                            Santa Pasta?
                              0
                              Holy Macaroni © H. J. Simpson
                            0
                            О причинной связи можно говорить, если в эксперименте искуственно меняется одна переменная, а при этом наблюдается изменения в другой. Тогда коэффициент корреляции действительно покажет причинную связь
                              0
                              *занудство* как то у вас по оси Х странно циферки расположены. Потому и график не верен
                                0
                                Подробнее, плз — что там странного?
                                  0
                                  А, вы про пиратов… :) ну расположите там года.
                                +1
                                Глобальное похолодание уже началось:

                                www.google.ru/trends?q=пираты
                          0
                          Первая мысль, когда посмотрел на C и D, что данные находятся в более, чем 2-мерном пространстве Оо
                            0
                            Я тоже так подумал поначалу)
                            +3
                            отклонения больше чем 3сигмы выкидываются из результатов эксперимента, некоторые точки я бы под сомнение поставил
                              0
                              А где здесь эксперимент? ;)
                                +5
                                А с чем оперирует статистика? Только с эксперементальными данными.
                                  +1
                                  Здесь данные, конечно, не экспериментальные, а так — чистая игра ума. Как раз для того, чтобы показать уровень доверия к обобщенным показателям.

                                  Впрочем, правило трёх сигм применяется только к нормально распределенным данным, а это ведь далеко не все возможные случаи. Например, размер зарплат у населения России — величина отнюдь не нормально распределенная.

                                  И ещё: в квартете Анскомбе все данные, кроме случая D, вписываются в интервал трех сигм. И даже вон та зависшая точка в D — тоже почти на краю, ну чуть-чуть выбивается :)
                                    –2
                                    в хлс файле все формулы явно для нормального распределения.
                                      0
                                      Хмм… в общем случае можно использовать неравенство Чебышева, нет?
                                      Оно хотя не такое сильное, как правило трех сигм для нормального, но тоже не слишком слабое.
                                        +1
                                        Для борьбы с точками-«аутсайдерами» (laverage effect) обычно применяют статистические критерии, например Q-тест
                                          +1
                                          Сумма одинаково распределенных величин в пределе имеет нормальное распределение. Центральная предельная теорема.
                                          Даже сумма четырех-пяти равномерно распределенных величин (плотность — прямая линия) визуально очень сильно напоминает гауссиану.
                                      0
                                      Статистикой не обязательно анализируются данные некоего физического эксперимента, предполагающего устойчивое поведение. Это могут быть данные соцопроса, замеры качества деталей и т.п. «Правило трех сигм» тут не применимо.
                                        0
                                        правило трех сигм именно из статистики, и показывает среднее экспериментальное с 99,7% достоверности.
                                          +3
                                          Правило трех сигм, во-первых, эмпирическое, во-вторых, годится только для нормального распределения.
                                            0
                                            Никто этого не отрицает.
                                    • НЛО прилетело и опубликовало эту надпись здесь
                                        +1
                                        Именно поэтому в экспериментальной физике никогда не смотрят на выведенные зависимости без приложенных к ним «сырых» результатов.
                                          0
                                          У меня такое ощущение, что вы только что сказали — «Земля плоская! Потому-что я не вижу что она круглая.». Если вы конечно серьёзно а не юморите, вот англичанин точно прикалывался.
                                            –1
                                            Дополнение от друга:
                                            Автор, он намекает, что показатели статистические ничего конкретного о выборке не говорят. и как следствие — методология статистики типа ебанутая. на самом деле эти примеры демонстрируют очень важную хрень — эти характеристики без контекста вообще не нужны. а уж линейная функция тут вообще ни при чем )))
                                            Так что это просто лулз не больше. И гениальности тут ноль.
                                            • НЛО прилетело и опубликовало эту надпись здесь
                                              +5
                                              Не хватает показателей эксцесса, асимметрии, R2 — коэффициента детерминации для уравнения корреляции.
                                                +4
                                                Не надо портить красивую штуку :))
                                                  +9
                                                  Ну, поумничать захотелось.
                                                  +2
                                                  R-квадрат совпадает с точностью до сотых. 0.666
                                                  Если использовать регрессию из пакета анализа экселя — то все показатели практически совпадают. Расхождение в сотых или тысячных

                                                  На счёт эксцесса и ассиметрии — разве они применимы в этом случае? Я что то сейчас не могу вспомнить.

                                                    0
                                                    Экцесс, ассиметрия для проверки нормальности распределения. Ну, они точно будут различаться. Видно по графикам.
                                                      +1
                                                      Я просто не могу сообразить, как коэффициенты асимметрии и эксцесса использовать для 2хмерной случайной величины( т.к. у нас есть x и y).
                                                      Если по отдельности считать для x и для y — то они конечно не совпадут.
                                                  +1
                                                  Эти графики используются как раз для того, чтобы доказать, что R^2, которое любят приводить для подтверждения связи наблюдаемых явлений в экономике (Левитт с его Freakonimics как пример) еще ни о чем не говорит :)
                                                  +1
                                                  ну это же математика, что тут удивляться? она просто режет правду матку, а её можно крутить как хочешь в зависимости что нужно достичь
                                                    –1
                                                    Ну а что вы хотели, четко описать люббую последовательность пятью параметрами? Тем более, видно что корелляция довольно адекватно описывает зависимость)
                                                      0
                                                      То есть вы хотите сказать, что для всех 4 выборок линейная модель адекватна?
                                                      Слабо верится. :)
                                                        0
                                                        Как раз наоборот — совсем неадекватна.
                                                        При коэффициенте корреляции меньше 0.9 вообще нельзя приближение линейное использовать. А тут — 0.82
                                                        А лучше, конечно r>0.9

                                                        Хотя я всерьёз видел кое-какие социологически-психологические исследования, опубликованные и всё такое, гед какие-то выводы делались на основе коэффициента корреляции порядка 0.7
                                                        Вот именно этим людям квартет и надо показывать
                                                          0
                                                          Да и вообще, метод МНК находит лучшее приближение в заданном классе функций.

                                                          То есть если я возьму синусоиду, я смогу найти такие параметры, при хоторых она лучшим образом будет описывать мою выборку. Но совсем же не факт, что это то, что мне нужно:)
                                                        +3
                                                        На мой взгляд A,B,C весьма похожи, что и проявляется в схожести параметров.
                                                        Если добавить median то D сразу станет в стороне.
                                                        Вообще median зачастую дает более полезную информацию, чем среднее (арифметическое) напр. для средней зар. платы.
                                                          0
                                                          Я тоже всегда интересуюсь значением медианы, когда мне предлагают среднее арифметическое.
                                                          Ответа обычно не получаю (хотя «посчитать» её проще).
                                                          0
                                                          Не надо морочить людям голову. Четыре представленных параметра характеризуют эти случайные величины очень слабо. Можно сравнить с четырьмя последними цифрами crc32 суммы для некоторых двух медиафайлов. Вообще говоря, без курса тервера упоминание матстата в принципе бессмысленно, а процесс его понимания может взорвать мозг на приличный промежуток времени (где-то два месяца если самому изучать).
                                                            0
                                                            Люто удваиваю. Случайная величина описывается всеми своими моментами, коих бесконечно много. А мат-ожидание и дисперсия — это условно говоря только первые два. Так что аналогия с CRC хороша.
                                                            0
                                                            Да, линейная регрессия, которую так любят в экономике и, особенно, социологии довольно опасная вещь.
                                                            Часто любят писать про коэффициенты корреляции наборов статданных, но реально там может быть ничего обещего. Большая проблема для оценки качества научной работы…
                                                              +2
                                                              Для случая B надо было использовать нелинейную регрессию, в остальных случаях — просто исключить ту точку, где отклонение наибольшее. А вот если бы взяли реальную статистическую выборку (хотя-бы 1000 значений x), то и исключать ничего не надо было бы.
                                                                +1
                                                                Ну тогда A можно описать, как линия + периодическая функция ( достаточно просто для 3х точек задать значение).
                                                                B — многочленом 2-ого или 3-его порядка.
                                                                С — выбросить одну точку и сказать, что это ошибочное измерение.
                                                                D — выбросить крайнюю точку. И подогнать y под какое-нибудь распределение случайной величины.

                                                                Но прикол не в этом. Да и выборка маленькая.
                                                              • НЛО прилетело и опубликовало эту надпись здесь
                                                                  –1
                                                                  Из-за того что подобные наблюдения статистиков часто публикуются без адекватного комментария, в массах и формируется базовое недоверие к математической статистике вообще. Это лишь иллюстрация к тому, что при использовании всякого средства нужно представлять его возможности, ограничения и допущения, которые лежат в их основе.
                                                                    0
                                                                    Корреляция описывает линейную зависимость между данными, которой здесь и не пахнет.
                                                                    Собственно, по ссылке в википедии всё написано.

                                                                    При том, что этот факт в общем-то хорошо известен, эту самую ошибку многие повторяют с завидным постоянством.

                                                                    Есть мнение, что недавний кризис (который начался с обвала subprime ипотеки в США) начался с похожей ошибки: оригинальная статья (англ)
                                                                      0
                                                                      Среднее значение и дисперсия однозначно характеризуют набор данных, только если его распределение хорошо моделируется нормальным, а остальных случаях нужны ещё параметры, вроде их штук пять в сумме надо, деталей не помню.

                                                                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                      Самое читаемое