alienator 15 апр 2010 в 22:20

Квартет Анскомбе

1 мин

5.1K

Статистика в IT

+106

Комментарии 68

Uncle_Sam 15 апр 2010 в 22:28

Как известно, есть правда, есть ложь, а есть статистика. Вечная истина.

ProstoTyoma 15 апр 2010 в 22:50

Я слышал в более жестком варианте: «Есть три вида лжи: ложь, наглая ложь и статистика».

+21

Beerlander 16 апр 2010 в 04:02

Еще более жесткий вариант звучал так: «Есть маленькая ложь, большая ложь и советсткая статистика».

-1

jite 15 апр 2010 в 23:09

Поправочка:
Существуют три вида лжи: ложь, наглая ложь и статистика. (Марк Твен)

Но мне больше по нраву:
По статистике один пешеход попадает под колеса автомобиля каждые 17 минут. Бедняга! (Янина Ипохорская)

+16

rpeMJIuH 15 апр 2010 в 22:38

Здорово! То, что доктор прописал для презентации по моей бакалаврской =)
Благодарю за информацию!

alienator 15 апр 2010 в 22:40

Учтите, что в третьем и дальнейших знаках некоторые значения на самом деле не равны.

rpeMJIuH 15 апр 2010 в 22:41

Само собой, но оживить презентацию эта информация способна :)
А то сплошные формулы, код, графики… надо было попроще брать тему…

alienator 15 апр 2010 в 22:41

А как тема звучит?

rpeMJIuH 15 апр 2010 в 23:28

В переводе на русский звучит примерно как: «Разработка алгоритмов и программ статистического оценивания с применением пакета R»

Masterkey 16 апр 2010 в 02:21

сначала руководителю покажите — возможно в комиссии люди будут без юмора, не стоит рисковать работой!

alienator 16 апр 2010 в 06:09

И это… обратите внимание, что автора, оказывается, зовут Энскомб.
Пруфлинк.

Midnighter 15 апр 2010 в 23:06

Здесь дело не в знаке, можно подобрать точки так, чтобы значения были в точности равны, а картинки выглядели так же. Эти картинки нам просто показывают, что статистическая информация — это просто усреднение, которое часто не отражает реальную природу данных.

alienator 15 апр 2010 в 23:20

Скажем так: нельзя ограничиваться несколькими статистическими показателями без подробного анализа данных.

Особенно это касается любимого всеми коэффициента корреляции: постоянно забывают, особенно всякие журналисты, что статистическая взаимосвязь не означает причинно-следственную взаимосвязь.

Классический пример:

+16

MadCat 15 апр 2010 в 23:36

Люди, которые делают утреннюю зарядку, умирают в сто раз реже остальных. Потому что их в сто раз меньше, чем остальных.

+21

alienator 15 апр 2010 в 23:36

Туда же, ага.

НЛО прилетело и опубликовало эту надпись здесь

ExxY 15 апр 2010 в 23:53

Пресвятые макароны!

Slonoed 16 апр 2010 в 05:14

Santa Pasta?

s1im 16 апр 2010 в 08:21

Holy Macaroni © H. J. Simpson

Midnighter 15 апр 2010 в 23:57

О причинной связи можно говорить, если в эксперименте искуственно меняется одна переменная, а при этом наблюдается изменения в другой. Тогда коэффициент корреляции действительно покажет причинную связь

Enoty200shtyk 16 апр 2010 в 08:03

*занудство* как то у вас по оси Х странно циферки расположены. Потому и график не верен

alienator 16 апр 2010 в 09:22

Подробнее, плз — что там странного?

alienator 16 апр 2010 в 09:24

А, вы про пиратов… :) ну расположите там года.

aspect 16 апр 2010 в 09:59

Глобальное похолодание уже началось:

www.google.ru/trends?q=пираты

Autorun 15 апр 2010 в 22:41

Первая мысль, когда посмотрел на C и D, что данные находятся в более, чем 2-мерном пространстве Оо

Alaunquirie 15 апр 2010 в 22:58

Я тоже так подумал поначалу)

Nc_Soft 15 апр 2010 в 22:51

отклонения больше чем 3сигмы выкидываются из результатов эксперимента, некоторые точки я бы под сомнение поставил

alienator 15 апр 2010 в 22:59

А где здесь эксперимент? ;)

Nc_Soft 15 апр 2010 в 23:00

А с чем оперирует статистика? Только с эксперементальными данными.

alienator 15 апр 2010 в 23:13

Здесь данные, конечно, не экспериментальные, а так — чистая игра ума. Как раз для того, чтобы показать уровень доверия к обобщенным показателям.

Впрочем, правило трёх сигм применяется только к нормально распределенным данным, а это ведь далеко не все возможные случаи. Например, размер зарплат у населения России — величина отнюдь не нормально распределенная.

И ещё: в квартете Анскомбе все данные, кроме случая D, вписываются в интервал трех сигм. И даже вон та зависшая точка в D — тоже почти на краю, ну чуть-чуть выбивается :)

Nc_Soft 15 апр 2010 в 23:19

в хлс файле все формулы явно для нормального распределения.

-2

kzn 16 апр 2010 в 00:35

Хмм… в общем случае можно использовать неравенство Чебышева, нет?
Оно хотя не такое сильное, как правило трех сигм для нормального, но тоже не слишком слабое.

Alekseo 16 апр 2010 в 01:02

Для борьбы с точками-«аутсайдерами» (laverage effect) обычно применяют статистические критерии, например Q-тест

mechmind 16 апр 2010 в 01:42

Сумма одинаково распределенных величин в пределе имеет нормальное распределение. Центральная предельная теорема.
Даже сумма четырех-пяти равномерно распределенных величин (плотность — прямая линия) визуально очень сильно напоминает гауссиану.

Regis 15 апр 2010 в 23:03

Статистикой не обязательно анализируются данные некоего физического эксперимента, предполагающего устойчивое поведение. Это могут быть данные соцопроса, замеры качества деталей и т.п. «Правило трех сигм» тут не применимо.

grossu 15 апр 2010 в 23:15

правило трех сигм именно из статистики, и показывает среднее экспериментальное с 99,7% достоверности.

alienator 15 апр 2010 в 23:22

Правило трех сигм, во-первых, эмпирическое, во-вторых, годится только для нормального распределения.

grossu 15 апр 2010 в 23:23

Никто этого не отрицает.

НЛО прилетело и опубликовало эту надпись здесь

hexoid 15 апр 2010 в 23:16

Именно поэтому в экспериментальной физике никогда не смотрят на выведенные зависимости без приложенных к ним «сырых» результатов.

ufik 15 апр 2010 в 23:18

У меня такое ощущение, что вы только что сказали — «Земля плоская! Потому-что я не вижу что она круглая.». Если вы конечно серьёзно а не юморите, вот англичанин точно прикалывался.

ufik 15 апр 2010 в 23:22

Дополнение от друга:
Автор, он намекает, что показатели статистические ничего конкретного о выборке не говорят. и как следствие — методология статистики типа ебанутая. на самом деле эти примеры демонстрируют очень важную хрень — эти характеристики без контекста вообще не нужны. а уж линейная функция тут вообще ни при чем )))
Так что это просто лулз не больше. И гениальности тут ноль.

-1

НЛО прилетело и опубликовало эту надпись здесь

grossu 15 апр 2010 в 23:19

Не хватает показателей эксцесса, асимметрии, R² — коэффициента детерминации для уравнения корреляции.

alienator 15 апр 2010 в 23:30

Не надо портить красивую штуку :))

grossu 15 апр 2010 в 23:44

Ну, поумничать захотелось.

Klajnor 15 апр 2010 в 23:32

R-квадрат совпадает с точностью до сотых. 0.666
Если использовать регрессию из пакета анализа экселя — то все показатели практически совпадают. Расхождение в сотых или тысячных

На счёт эксцесса и ассиметрии — разве они применимы в этом случае? Я что то сейчас не могу вспомнить.

grossu 15 апр 2010 в 23:46

Экцесс, ассиметрия для проверки нормальности распределения. Ну, они точно будут различаться. Видно по графикам.

Klajnor 16 апр 2010 в 00:03

Я просто не могу сообразить, как коэффициенты асимметрии и эксцесса использовать для 2хмерной случайной величины( т.к. у нас есть x и y).
Если по отдельности считать для x и для y — то они конечно не совпадут.

grossu 16 апр 2010 в 00:16

Да, вы правы. Здесь это неуместно.

vittore 16 апр 2010 в 02:23

Вообще то можно www.tau.ac.il/cc/pages/docs/sas8/stat/chap19/sect35.htm

ilmenauer 16 апр 2010 в 07:40

Эти графики используются как раз для того, чтобы доказать, что R^2, которое любят приводить для подтверждения связи наблюдаемых явлений в экономике (Левитт с его Freakonimics как пример) еще ни о чем не говорит :)

iosis 15 апр 2010 в 23:39

ну это же математика, что тут удивляться? она просто режет правду матку, а её можно крутить как хочешь в зависимости что нужно достичь

yvanko 16 апр 2010 в 00:06

Ну а что вы хотели, четко описать люббую последовательность пятью параметрами? Тем более, видно что корелляция довольно адекватно описывает зависимость)

-1

CAH4A 16 апр 2010 в 00:17

То есть вы хотите сказать, что для всех 4 выборок линейная модель адекватна?
Слабо верится. :)

kirushik 16 апр 2010 в 11:46

Как раз наоборот — совсем неадекватна.
При коэффициенте корреляции меньше 0.9 вообще нельзя приближение линейное использовать. А тут — 0.82
А лучше, конечно r>0.9

Хотя я всерьёз видел кое-какие социологически-психологические исследования, опубликованные и всё такое, гед какие-то выводы делались на основе коэффициента корреляции порядка 0.7
Вот именно этим людям квартет и надо показывать

CAH4A 16 апр 2010 в 11:55

Да и вообще, метод МНК находит лучшее приближение в заданном классе функций.

То есть если я возьму синусоиду, я смогу найти такие параметры, при хоторых она лучшим образом будет описывать мою выборку. Но совсем же не факт, что это то, что мне нужно:)

zvulon 16 апр 2010 в 00:26

На мой взгляд A,B,C весьма похожи, что и проявляется в схожести параметров.
Если добавить median то D сразу станет в стороне.
Вообще median зачастую дает более полезную информацию, чем среднее (арифметическое) напр. для средней зар. платы.

rubyrabbit 16 апр 2010 в 08:33

Я тоже всегда интересуюсь значением медианы, когда мне предлагают среднее арифметическое.
Ответа обычно не получаю (хотя «посчитать» её проще).

mechmind 16 апр 2010 в 02:01

Не надо морочить людям голову. Четыре представленных параметра характеризуют эти случайные величины очень слабо. Можно сравнить с четырьмя последними цифрами crc32 суммы для некоторых двух медиафайлов. Вообще говоря, без курса тервера упоминание матстата в принципе бессмысленно, а процесс его понимания может взорвать мозг на приличный промежуток времени (где-то два месяца если самому изучать).

Calvrack 16 апр 2010 в 11:37

Люто удваиваю. Случайная величина описывается всеми своими моментами, коих бесконечно много. А мат-ожидание и дисперсия — это условно говоря только первые два. Так что аналогия с CRC хороша.

ilmenauer 16 апр 2010 в 06:25

Да, линейная регрессия, которую так любят в экономике и, особенно, социологии довольно опасная вещь.
Часто любят писать про коэффициенты корреляции наборов статданных, но реально там может быть ничего обещего. Большая проблема для оценки качества научной работы…

jrwisard 16 апр 2010 в 09:43

Для случая B надо было использовать нелинейную регрессию, в остальных случаях — просто исключить ту точку, где отклонение наибольшее. А вот если бы взяли реальную статистическую выборку (хотя-бы 1000 значений x), то и исключать ничего не надо было бы.

Klajnor 16 апр 2010 в 11:19

Ну тогда A можно описать, как линия + периодическая функция ( достаточно просто для 3х точек задать значение).
B — многочленом 2-ого или 3-его порядка.
С — выбросить одну точку и сказать, что это ошибочное измерение.
D — выбросить крайнюю точку. И подогнать y под какое-нибудь распределение случайной величины.

Но прикол не в этом. Да и выборка маленькая.

НЛО прилетело и опубликовало эту надпись здесь

nahrihra 16 апр 2010 в 19:51

Из-за того что подобные наблюдения статистиков часто публикуются без адекватного комментария, в массах и формируется базовое недоверие к математической статистике вообще. Это лишь иллюстрация к тому, что при использовании всякого средства нужно представлять его возможности, ограничения и допущения, которые лежат в их основе.

-1

impersona 16 апр 2010 в 21:15

Корреляция описывает линейную зависимость между данными, которой здесь и не пахнет.
Собственно, по ссылке в википедии всё написано.

При том, что этот факт в общем-то хорошо известен, эту самую ошибку многие повторяют с завидным постоянством.

Есть мнение, что недавний кризис (который начался с обвала subprime ипотеки в США) начался с похожей ошибки: оригинальная статья (англ)

worldmind 26 июн 2019 в 15:08

Среднее значение и дисперсия однозначно характеризуют набор данных, только если его распределение хорошо моделируется нормальным, а остальных случаях нужны ещё параметры, вроде их штук пять в сумме надо, деталей не помню.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Квартет Анскомбе

Комментарии 68

Публикации

Истории