«Парадокс инспекции» встречается повсюду

    Многим известен так называемый «парадокс дружбы» (friendship paradox) в социальных сетях, впервые упомянутый в научной работе 1991 года, когда социальные сети были только в офлайне. Этот парадокс применим и к современным социальным сетям в интернете.

    Если взять любого пользователя Facebook и случайным образом выбрать любого из его друзей, то с вероятностью 80% у друга будет больше «френдов». Люди, которые плохо знакомы с математической статистикой, очень огорчает тот факт, что почти все френды более «успешны» в общении, чем они сами. Но здесь нет причины для депрессии: так и должно быть, в соответствии с наукой и здравым смыслом.

    Парадокс дружбы — одна из форм «парадокса инспекции» (Inspection Paradox), который встречается буквально повсюду и частенько вводит в заблуждение обывателей.

    Суть парадокса дружбы в том, что пользователи с большим количеством френдов чаще попадают в статистическую выборку. Например, по данным Stanford Large Network Dataset Collection на выборке из 4000 человек у среднего пользователя Facebook — 42 друга, а у каждого из этих френдов, в среднем, 91 друг.



    То же самое наблюдается в других областях исследования.

    Например, парадокс размера класса. Предположим, что мы опрашиваем студентов, сколько человек учится у них в группе, а потом выводим среднее арифметическое из их ответов — и получаем 56 человек. Но администрация университета говорит, что среднее количество студентов в группе — 31. Как ни странно, никто не врёт, и оба значения справедливы. Просто во время опроса больше шансов попасть в выборку имеют студенты из больших групп, потому что их на самом деле больше. Если у нас две группы 10 и 100 человек, то 100 из 110 опрошенных назовут размер своей группы в 100 человек, и только 10 человек назовут размер группы 10. Средний размер группы, по такому опросу, составит 92 студента.

    Казалось бы, банальная ошибка, но она является источников недопонимания во многих реальных ситуациях. Например, при анализе пассажиропотока в общественном транспорте. Профессор информатики Аллен Дауни (Allen Downey) для статьи в журнале Американского статистического общества приводит пример среднего промежутка времени между электропоездами Red Line в Бостоне. Он записал время прибытия 70 электричек между 17:00 и 18:00.



    Минимальный интервал между поездами составил 3 минуты, максимальный — 15 минут. По фактическим данным средний промежуток между поездами составляет 7,8 минуты, то есть среднее время ожидания поезда должно быть около 3,9 минуты. Но опрос пассажиров показывает, что среднее время ожидания на самом деле составило 4,4 минуты, а интервал между поездами — 8,8 минуты, то есть на 15% больше.

    Причина в том, что при большей задержке поезда в его ожидании скапливается больше пассажиров, а прибывшие с коротким интервалом поезда идут менее заполненными. Соответственно, большинство пассажиров жалуются на давку в вагоне и долгое время ожидания поезда, тогда как по данным компании среднее время и загруженность вагонов соответствует норме.

    Такая же проблема с авиарейсами. Большинство пассажиров говорят о полных салонах самолётов, в то время как авиакомпании жалуются на потерю прибыли, потому что так много рейсов летят почти пустыми. И те, и те правы.

    «Парадокс инспекции» наблюдается, например, в забегах на длинные дистанции или при поездках на автомобиле по трассе. В каждом из этих случаев участник движения обгоняет «слишком медленных», а его обгоняют «слишком быстрые». Создаётся субъективное впечатление, что все участники движения делятся на слишком медленных или слишком быстрых, а средних нет.

    Последний пример Аллена Дауни родился после прочтения книги «Оранжевый — хит сезона», мемуаров Пайпер Керман (Piper Kerman), которая провела 13 месяцев в федеральной тюрьме. В одном из фрагментов книги она выражает удивление большой продолжительностью сроков, которые отбывают заключённые. Очевидно, девушка не знакома с законами математической статистики. А ведь в соответствии с парадоксом инспекции, если попасть в тюрьму в случайный момент времени и выбрать случайного заключённого, то с большой долей вероятности он приговорён к длительному сроку заключения. Это вовсе не свидетельство негуманной тюремной системы США, а простой вывод из парадокса инспекции.



    По официальным данным U.S. Sentencing Commission, средний срок составляет 121 месяц, а «субъективный средний срок» при опросе заключённых — 183 месяца.

    Даже при опросе окружающих заключённых в течение тринадцати месяцев, как показывает расчёт, полученный средний результат не сильно отличается от первоначального однократного опроса.



    Более-менее объективную цифру можно получить при опросе в течение 600 и более месяцев.
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 36

      +15
      Любопытно. Антропный принцип примерно на эту же тему. Разве что в нем выборка ни к черту — всего 1 элемент =).
        +1
        Мне кажется во многих случаях этого можно избежать, правильно обрабатывая данные.

        Например, в ситуации с размером группы, брать среднее сначение не среди студентов попавших в выборку, а среди групп, студенты из которых попали в выборку
          –10
          Именно, как тут не вспомнить про среднюю температуру по больнице.
          И о том, что статистика — предельная форма лжи.
            +11
            Все таки не обижайте статистику. Сама по себе она достаточно точна и корректна. Вопрос в способе подачи информации — а этим уже занимаются маркетологи, PR и прочие люди, у которых цели несколько иные, нежели корректная подача информации. Сразу вспоминаются сравнения производительности чего-нибудь со шкалой по «Y», стартующей не с нуля.
              +1
              Математическую статистику — опирающуюся на теорию вероятности, безусловно уважаю. Но в статье речь явно не о ней. Тот же пример с группами студентов — это явное передергивание фактов, та самая средняя температура по больнице. Математики включили бы в опрос идентификатор группы. А в больнице — статус пациента :)
                +4
                Не передергивание, а ошибка в методологии. Сложность статистики не в том чтобы поделить результат на размер выборки и экстраполировать на всю выборку, а в том чтобы корректно эту выборку составить. На этом очень многие срезаются. Вспомните хотябы парадокс Монти Холла, уж насколько все кажется элементарно, но практически никто не может без подсказки правильно определить базу для расчета.
                  –2
                  Хосподи! Что вы меня все, блин, лечите-то! :))) Да, знаю я вашего Монти-Холла с козлами да машинами.
                  Всего-то известное (вижу, что не всем) выражение перефразировал:

                  «Существуют три вида лжи: ложь, наглая ложь и статистика»

                  // вставил бы ссылку, но теперь уже увы… гугл вам в помощь ;)

                  dixi
                    +1
                    Всем лечащим понятно, что за глупость Вы цитировали, уверяю Вас
              –2
              off: Забавно, наблюдаю «парадокс минусплюсатора», который можно сформулировать так:

              Вижу утверждение которое не нравится, за которым следует утверждение с которым согласен — автоматом ставлю первому «минус» и второму «плюс».

              Был бы минус без второго утверждения? Вот Вам и парадокс… :)
                +2
                Скорее наоборот, после минуса первому утверждению читатель «следом» ставит плюс второму комментарию,
                потому что автор второго комментария уже изложил ту самую критику первого утверждения, на основании которой читатель поставил минус первому комментарию.

                P.S.: Совершенно непонятно, с чего вы именуете приводимое явление «парадоксом»?
                  +1
                  Забавно, наблюдаю «парадокс минусанутого», который можно сформулировать так:
                  меня минусанули, не буду думать об уместности приятности и полезности своего утверждения, а вместо этого подумаю о том как удивительно устроен мир и люди которые меня окружают и хотят обидеть через эти важные для меня цифорки и байтики и выражу своё несогласие в виде неочевидной апелляции, чтобы никто не сообразил что сейчас произошло.
                +1
                Так опрашивающий не знает ничего о группах студентов. Сами студенты называют свою группу. И хорошо, если все студенты из 100-ой группы знают, что их 100. Многие ведь могут отвечать примерно: 90-100, 70-95 и т.д. +)
                В статье был приведен упрощенный пример, чтобы объяснить парадокс. В жизни разделить на группы не так-то просто.
                  0
                  В опрос следует включить идентификатор группы
                    0
                    Так если опрос касается величин групп студентов. Вы выхватываете из толпы любого студента и узнаете количество студентов в его группе. Первый отвечает, что 75-80, второй — 90-100, третий — 90-95, четвертый — я насчитал 88. Как вы планируете раздавать идентификаторы этим группам? +))
                    Если все студенты точно знают численность своей группы, то вами предложенное обрабатывание данных сработает. В ином случае все усложняется неоднородными данными полученными при опросе.
                      0
                      Как вы планируете раздавать идентификаторы этим группам?

                      Студенты могут не знать точно, сколько у них в группе человек. Но номер своей группы они должны знать :)
                        0
                        А если цель опроса — определить примерную среднюю численность группы, и предположить, что студенты не знают номер своей группы и тем более настоящую численность? +))
                          0
                          <irony> Тогда не имеет смысла их об этом спрашивать :)) </irony>
                          0
                          Студенты могут не знать точно, сколько у них в группе человек. Но номер своей группы они должны знать :)

                          Тогда проще в деканате спросить:)
                        0
                        И в результате будет средний размер групп студентов, попавших в опрос. А в опрос с большей вероятностью попадут большие группы. Ошибка сохранится.
                      0
                      Если предположить, что выборка абсолютно случайна, то вероятность, что из A опрошенных a_i скажут, что в их группе x_i студентов, равна A n_i x_i / N, где N=sum_i n_i x_i — число всех студентов на потоке. А значит, что n_i/N=a_i/(A x_i). С другой стороны, среднее число студентов в группе равно N/sum_i n_i. Отсюда следует, что среднее число студентов можно вычислить как A/(sum_i (a_i/x_i)). То есть информации в опросе достаточно, просто надо ее правильно использовать.
                        0
                        С самого начала прочтения этой статьи, у меня была мысль, что данных должно быть достаточно для оценки среднего значения. Комментатор выше абсолютно прав и приводит правильную формулу для определения среднего значения.
                        Как легко заметить, во всех приведенных в статье примерах просто допущена банальная ошибка подсчетов, статистика тут совершенно не при чем.
                          0
                          во всех приведенных в статье примерах просто допущена банальная ошибка подсчетов, статистика тут совершенно не при чем

                          Потому и называется «парадокс»: мнение, суждение, резко расходящееся с общепринятым, противоречащее (в действительности или на первый взгляд) здравому смыслу.
                        0
                        Избежать ошибки, обрабатывая значения среди групп, а не студентов, не получится. Потому что с большей вероятностью исследователю встретятся студенты больших групп и не встретятся студенты групп малочисленных.
                        +1
                        Как раз вчера думал про то, что сравнивать молодых и старых не всегда корректно, потому что старые, которые были подверженны тем или иным привычкам, чаще умирали, что создало смещение в выборке.
                      • UFO just landed and posted this here
                          0
                          Строго говоря, птицы являются динозаврами, так что вероятность встретить динозавра на улице не так уж и отличается от 50%.
                          • UFO just landed and posted this here
                              +1
                              А почему непременно все динозавры должны стать теплокровными? Вот те, которые стали птицами — стали. А остальные — совершенно не обязательно. А во-вторых, палеонтологи говорят, что есть свидетельства, что немалая доля «тех» динозавров также была теплокровной.

                              ru.wikipedia.org/wiki/%D0%9C%D0%BE%D0%BD%D0%BE%D1%84%D0%B8%D0%BB%D0%B8%D1%8F

                              Вот даже здесь статью специально для вас написали: geektimes.ru/post/249914
                              0
                              Строго говоря, птицы являются динозаврами

                              Строго говоря, птицы не являются динозаврами.

                              ДИНОЗА́ВР, динозавра, муж. (от греч. den — давно и saura — ящерица) (палеонт.). Вымершее пресмыкающееся огромных размеров.


                              (По другим данным, образовано путем сложения греч. deinos «огромный, ужасный» и sauros «ящерица».)
                                0
                                Птицы являются динозаврами лишь в узком смысле, в контексте кладистики.
                                  0
                                  Ну я точно так же могу сказать, что птицы не являются динозаврами лишь в узком смысле — в контексте вашего словаря. К тому же определение у вас так себе. Получается, что ихтиозавры и вымершие крокодилы также являются динозаврами, а вот велоцираптор — нет, ибо он заметно меньше человека. И вообще, непонятно, какими точно должны быть размеры, чтобы считаться огромными. Так что ваше определение не является не только общепринятым, но и строгим. А чтобы сколько-либо строго определить динозавров, как раз приходится прибегать к кладистике, то бишь называть динозаврами всех представителей некоторой ветви древа жизни. И с этим, насколько я знаю, согласно подавляющее большинство специалистов по систематике.
                                    0
                                    Давайте тогда сойдёмся на том, что птицы также, строго говоря, являются снарядами, и с этим согласно подавляющее большинство людей, играющих в игру Angry Birds.
                                      0
                                      Ёж — птица гордая, пока не пнёшь — не полетит.

                                      Что-то мне подсказывает, что когда вам надо будет поменять трубы в ванной, вы пойдёте к сантехнику, а не к игроку в марио.
                              0
                              Не узнал Ализара! Неужто чудо свершилось? Или статистически рано судить?

                              Only users with full accounts can post comments. Log in, please.