Pull to refresh

Comments 26

Я вот третье «аналогично» не смог доказать… кто пояснит?

Ничего не понял, больше, меньше, по часовой, опять по часовой. Вычитайте, пожалуйста и поправьте формулировки, это невозможно читать. А вообще идея довольно тривиальна - измеряя параметр желательно исключить влияние всех остальных параметров. Если вы хотите действительных чудес, обратитесь к медицинской статистике.

Таких примеров очень много. Когда берутся исходные данные из объективной реальности, обрабатываются в полном соответствии с законами математической статистики, и на этом основании делается в корне неверный вывод.

Иногда такое происходит просто по глупости, (типа, в рамках защиты диссертации), а иногда и с умыслом. Например, чтобы подвести "теоретическую базу" под непопулярное решение.

В конце 80х мне дали поглядеть "научный труд" одного должностного лица из МВД. Там на полном серьезе исследовалась корреляция между количеством тяжких преступлений против личности (типа всяких убийств-грабежей и т.п.), совершенных в населенном пункте, с наличием уличного освещения в этом населенном пункте. Брались реальные данные по разным городам Советского Союза, приводились математические формулы, таблицы, графики. (Без обработки на компьютере тоже, конечно, не обошлось. Программа на фортране для ЕС-ки прилагалась). И делался ошеломляющий вывод: в населенных пунктах без уличного освещения преступность оказывается меньше! То есть автор реально вносил предложение уменьшить количество освещенных улиц, с целью не только экономии электроэнергии и улучшения криминогенной обстановки. (И это не первоапрельская шутка была, а попытка защитить диссертацию). Вроде как неудачная, и то хорошо.
Собственно, мне эту работу и дали почитать со словами "ты типа математик, ошибку найдешь?". Причем я был молодой, глупый, и ошибок в обработке данных с ходу не нашел. Все вроде правильно, не подкопаешься.
Я тогда промямлил что-то на тему того, что "населенные пункты с уличным освещением- они разные бывают. Одно дело наукоград, и совсем другое - городок рядом с исправительной колонией. А вот как раз по этому признаку в работе никаких данных нет и сравнений не проводится, что не совсем правильно."
А потом мы попросили прокомментировать сей "научный труд" пенсионера, бывшего участкового милиционера, который проработал в МВД на разных должностях больше 40 лет в разных регионах нашей страны. Он долго смеялся, а потом разгромил всю эту наукообразную ахинею одним ударом. Его аргумент был простой: населенные пункты без уличного освещения - это на самом деле, небольшие деревни где-то на отшибе цивилизации, куда фиг доберешься после дождей или снегопадов. Людей там мало, все работают вместе и очень хорошо друг друга знают. И самое главное - все живут примерно в одних и тех же условиях, им делить нечего. Потому и тяжких преступлений совершается очень мало. Украсть курицу - это там могут. А самое страшное правонарушение против личности - когда мужики с получки напьются, матом друг друга начнут крыть и за грудки хватать. В самом худшем случае, на мелкое хулиганство потянет, но не более того).
А в крупных городах (с уличным освещением) ситуация другая. Когда множество приезжих случайных людей, а жители многоэтажки не знают в лицо соседей по подъезду, там с криминогенной обстановкой все гораздо хуже получается.

Таких примеров очень много. Когда берутся исходные данные из объективной реальности, обрабатываются в полном соответствии с законами математической статистики, и на этом основании делается в корне неверный вывод.

Спасибо, да, примерно это я и имел ввиду)

Основной пример - если просто с улицы набрать людей (выборка будет полностью репрезентативной), измерить длину стопы, то выяснится, что есть прямая корреляция между длиной стопы и величиной IQ.

ОТВЕТ: длина стопы коррелирует также с возрастом, чем меньше возраст, тем меньше IQ.

Все обоснованные тесты IQ обязательно нормируются по возрасту, поэтому возраст не может влиять на величину IQ.

Гораздо проще пример: если выйти часов в 11 утра, и начать спрашивать у людей 30-50 лет, как у них с работой, то выяснится, что безработных в стране процентов 30, не меньше. Потому что те, у кого есть нормальная работа, в 11 часов утра как раз на ней.
UFO just landed and posted this here

Либо все еще проще.

Люди меньше шароходятся в кромешной темноте, зато с удовольствием пьют пивасик и конфликтуют на лавочке освещенной

это просто примеры неверного применения статистики- технология придания наукообразности некорректным выводам. А перлы о крокодиле к статистике не имеют отношения вообще. Вот прекрасный пример мухляжа со статистикой, который был, есть и будет. "на завтра вероятность дождя 50%". Что тут, собственно, предсказано? Где критерий проверки такого прогноза? И чем это отличатется от "дождь то ли будет то ли нет"?

Ну вообще критерий проверки такого прогноза - собираем все разы, когда предсказывалась такая вероятность дождя, потом смотрим для каждого из них, пошел дождь или нет. Доля дождливых дней должна стремиться к 50% при увеличении количества наблюдений. Нет?

А на одном наблюдении статистическую гипотезу (вероятность дождя равна 50%) и правда не проверить

ровно так же как и не проверишь гипотезу о 99% вероятности дождя. На одном наблюдении вообще не проверишь ни одну гипотезу :)

На одном наблюдении вообще не проверишь ни одну гипотезу :)

Постойте, а как же доказательство от противного? Даже одно наблюдение в грамотно построенном опыте может опровергнуть гипотезу (и по идее именно такие наблюдения и стоит проводить). Впрочем, это опять приводит нас к началу: а что же мы собственно проверяем-то? ;-)

Это же не чистые математические выкладки. В наблюдениях необходимо делать какие-то замеры, там будет погрешность. Для того, чтобы повысить достоверность эксперимента его следует повторить какое-то количество раз, чтобы убедиться что результат устойчивый.

Я бы мог повториться, что это зависит от проверяемой гипотезы, но, пожалуй, не буду.

Мы же говорим о «статистических гипотезах»? Тогда я настаиваю на том, что одного эксперимента недостаточно.

Вот прекрасный пример мухляжа со статистикой, который был, есть и будет. "на завтра вероятность дождя 50%". Что тут, собственно, предсказано?

Насколько я понимаю, это означает, что с 00:00 до 24:00 завтрашнего дня матожидание величины "доля общей площади территории, для которой указан прогноз, на которой выпало указанное количество осадков в виде дождя" будет равно 50 % от общей площади указанной территории. Обратите внимание, прогноз даётся для определённого участка и с указанием объёма осадков. Дисперсию, правда, не указывают, как и вид распределения, но для природного явления разумно предположить нормальное. А дисперсия может быть любая, терпите :-)

Вообще, по мнению некоторых аналитиков, маргарин, похоже, влияет на всё на свете.

А может это все на свете влияет на маргарин.

корреляция - не означает причинно-следственную связь.

Вообще я примерно для подтасовки статистики вижу такой самый распространенный способ: Так как на любой исследуемый параметр потенциально влияют десятки, сотни или даже тысячи других параметров - то в 99% случаев всегда можно подобрать такое подмножество подходящих параметров которое подтвердит любой заране поставленный вывод

Да, в социальных (и не только) науках манипулировать статистикой очень просто. Поэтому в серьезных эмпирических статьях по экономике, добрая половина работы может быть посвящена доказательству отсутствия эндогенности в используемых регрессиях, попыткам опровергнуть свои собственные выводы.

Очень просто ошибиться в выводе причинно-следственной связи из данных, даже если тщательно пытаешься этого избежать.

Сколько графиков, а t-статистику так и не посчитали, куда катятся статистики-питонисты?

Вообще для уверенности в своём ответе необходимо воспользоваться методами проверки статистических гипотез, но это, если вы действительно хотите узнать результат, наша же цель - показать возможные ошибки в анализе данных, доказать нашу точку зрения, ну или хотя бы создать скандал. Да и проверять гипотезы сложно, а смотреть на графики легко

В пропасть, в пропасть.

Sign up to leave a comment.

Articles