Comments 26
Вспомнилась вот эта картинка:
Ничего не понял, больше, меньше, по часовой, опять по часовой. Вычитайте, пожалуйста и поправьте формулировки, это невозможно читать. А вообще идея довольно тривиальна - измеряя параметр желательно исключить влияние всех остальных параметров. Если вы хотите действительных чудес, обратитесь к медицинской статистике.
Таких примеров очень много. Когда берутся исходные данные из объективной реальности, обрабатываются в полном соответствии с законами математической статистики, и на этом основании делается в корне неверный вывод.
Иногда такое происходит просто по глупости, (типа, в рамках защиты диссертации), а иногда и с умыслом. Например, чтобы подвести "теоретическую базу" под непопулярное решение.
В конце 80х мне дали поглядеть "научный труд" одного должностного лица из МВД. Там на полном серьезе исследовалась корреляция между количеством тяжких преступлений против личности (типа всяких убийств-грабежей и т.п.), совершенных в населенном пункте, с наличием уличного освещения в этом населенном пункте. Брались реальные данные по разным городам Советского Союза, приводились математические формулы, таблицы, графики. (Без обработки на компьютере тоже, конечно, не обошлось. Программа на фортране для ЕС-ки прилагалась). И делался ошеломляющий вывод: в населенных пунктах без уличного освещения преступность оказывается меньше! То есть автор реально вносил предложение уменьшить количество освещенных улиц, с целью не только экономии электроэнергии и улучшения криминогенной обстановки. (И это не первоапрельская шутка была, а попытка защитить диссертацию). Вроде как неудачная, и то хорошо.
Собственно, мне эту работу и дали почитать со словами "ты типа математик, ошибку найдешь?". Причем я был молодой, глупый, и ошибок в обработке данных с ходу не нашел. Все вроде правильно, не подкопаешься.
Я тогда промямлил что-то на тему того, что "населенные пункты с уличным освещением- они разные бывают. Одно дело наукоград, и совсем другое - городок рядом с исправительной колонией. А вот как раз по этому признаку в работе никаких данных нет и сравнений не проводится, что не совсем правильно."
А потом мы попросили прокомментировать сей "научный труд" пенсионера, бывшего участкового милиционера, который проработал в МВД на разных должностях больше 40 лет в разных регионах нашей страны. Он долго смеялся, а потом разгромил всю эту наукообразную ахинею одним ударом. Его аргумент был простой: населенные пункты без уличного освещения - это на самом деле, небольшие деревни где-то на отшибе цивилизации, куда фиг доберешься после дождей или снегопадов. Людей там мало, все работают вместе и очень хорошо друг друга знают. И самое главное - все живут примерно в одних и тех же условиях, им делить нечего. Потому и тяжких преступлений совершается очень мало. Украсть курицу - это там могут. А самое страшное правонарушение против личности - когда мужики с получки напьются, матом друг друга начнут крыть и за грудки хватать. В самом худшем случае, на мелкое хулиганство потянет, но не более того).
А в крупных городах (с уличным освещением) ситуация другая. Когда множество приезжих случайных людей, а жители многоэтажки не знают в лицо соседей по подъезду, там с криминогенной обстановкой все гораздо хуже получается.
Таких примеров очень много. Когда берутся исходные данные из объективной реальности, обрабатываются в полном соответствии с законами математической статистики, и на этом основании делается в корне неверный вывод.
Спасибо, да, примерно это я и имел ввиду)
Основной пример - если просто с улицы набрать людей (выборка будет полностью репрезентативной), измерить длину стопы, то выяснится, что есть прямая корреляция между длиной стопы и величиной IQ.
ОТВЕТ: длина стопы коррелирует также с возрастом, чем меньше возраст, тем меньше IQ.
Все обоснованные тесты IQ обязательно нормируются по возрасту, поэтому возраст не может влиять на величину IQ.
Либо все еще проще.
Люди меньше шароходятся в кромешной темноте, зато с удовольствием пьют пивасик и конфликтуют на лавочке освещенной
это просто примеры неверного применения статистики- технология придания наукообразности некорректным выводам. А перлы о крокодиле к статистике не имеют отношения вообще. Вот прекрасный пример мухляжа со статистикой, который был, есть и будет. "на завтра вероятность дождя 50%". Что тут, собственно, предсказано? Где критерий проверки такого прогноза? И чем это отличатется от "дождь то ли будет то ли нет"?
Ну вообще критерий проверки такого прогноза - собираем все разы, когда предсказывалась такая вероятность дождя, потом смотрим для каждого из них, пошел дождь или нет. Доля дождливых дней должна стремиться к 50% при увеличении количества наблюдений. Нет?
А на одном наблюдении статистическую гипотезу (вероятность дождя равна 50%) и правда не проверить
На одном наблюдении вообще не проверишь ни одну гипотезу :)
Постойте, а как же доказательство от противного? Даже одно наблюдение в грамотно построенном опыте может опровергнуть гипотезу (и по идее именно такие наблюдения и стоит проводить). Впрочем, это опять приводит нас к началу: а что же мы собственно проверяем-то? ;-)
Вот прекрасный пример мухляжа со статистикой, который был, есть и будет. "на завтра вероятность дождя 50%". Что тут, собственно, предсказано?
Насколько я понимаю, это означает, что с 00:00 до 24:00 завтрашнего дня матожидание величины "доля общей площади территории, для которой указан прогноз, на которой выпало указанное количество осадков в виде дождя" будет равно 50 % от общей площади указанной территории. Обратите внимание, прогноз даётся для определённого участка и с указанием объёма осадков. Дисперсию, правда, не указывают, как и вид распределения, но для природного явления разумно предположить нормальное. А дисперсия может быть любая, терпите :-)
xkcd:1138
upd: ерунду сморозил, не заметил per-capita
Вообще, по мнению некоторых аналитиков, маргарин, похоже, влияет на всё на свете.
А может это все на свете влияет на маргарин.
корреляция - не означает причинно-следственную связь.
Вообще я примерно для подтасовки статистики вижу такой самый распространенный способ: Так как на любой исследуемый параметр потенциально влияют десятки, сотни или даже тысячи других параметров - то в 99% случаев всегда можно подобрать такое подмножество подходящих параметров которое подтвердит любой заране поставленный вывод
Да, в социальных (и не только) науках манипулировать статистикой очень просто. Поэтому в серьезных эмпирических статьях по экономике, добрая половина работы может быть посвящена доказательству отсутствия эндогенности в используемых регрессиях, попыткам опровергнуть свои собственные выводы.
Очень просто ошибиться в выводе причинно-следственной связи из данных, даже если тщательно пытаешься этого избежать.
Сколько графиков, а t-статистику так и не посчитали, куда катятся статистики-питонисты?
Вообще для уверенности в своём ответе необходимо воспользоваться методами проверки статистических гипотез, но это, если вы действительно хотите узнать результат, наша же цель -
показать возможные ошибки в анализе данных, доказать нашу точку зрения, ну или хотя бы создать скандал. Да и проверять гипотезы сложно, а смотреть на графики легко
В пропасть, в пропасть.
Как врать с помощью статистики