Как понять, нужно ли переплачивать за пиво, или основы прикладной статистики / Хабр

Я люблю пиво, однако я не какой-то там эксперт, оголтелая фанатка крафта или, не дай господи, пивной сомелье. Я простая работяга умственного труда, которой иногда в пятницу хочется бахнуть прохладного хмельного напитка. И вот, в пятницу по дороге домой у меня есть превеликое множество вариантов, куда заглянуть на чарочку пенного. Дешевые разливные пивнухи, бары при крафтовых пивоварнях или просто магазин, иногда попроще, иногда подороже.

Но вот только понять я одного не могу. Порой приходишь в бар, просишь пива. И тебе вроде бы даже приносят в красивой кружке, и вроде бы вкусно, но за что 500 рублей за 0.5 литра? Если я в магазине баночку за 80 рублей куплю, будет заметно хуже?

Что же, подумала я, не зря же училась? Расчехляем бумажку с ручкой, будем выяснять, оправдана ли для меня лично переплата. А заодно ознакомимся с азами математической статистики — пожалуй, одной из важнейших дисциплин в науке в целом.

Какой же текст про пиво без Мадса Миккельсена?

Дисклеймер для дотошных: несмотря на то, что выкладки вполне адекватны, в силу небольшого числа наблюдений и кучи неучтенных факторов данный эксперимент носит скорее юмористически-иллюстративный характер. Хотя для обычного сильно занятого человека, не знакомого со статистикой, это, пожалуй, самый доступный вариант до какой‑то степени достоверно ответить на вопрос, «а чувствую ли я разницу».

Постановка задачи

Для начала важно определиться с тем, что мы хотим выяснить. Я с неба звёзд не хватала и начала с малого. Есть два ну очень уж удобных для меня варианта: тёмное пиво из Перекрёстка и магазинчик крафтовой пивоварни с прекрасным стаутом. Разница в ценнике налицо. Со вкусом, на самом деле, уже труднее. Кажется, что крафт немного вкуснее, но, быть может, тут играет решающую роль привкус жадности? Чтобы это узнать, можно провести слепой эксперимент. Проверим, отличу ли я пиво из супермаркета от крафта.

Идея вродь норм. С пивком покатит. И тут самое время перекатываться от лирики к статистике. Статистика — это такой раздел математики, который изучает закономерности в большой куче однородных данных.

Не одним же пивом сыты?! Вот вам ещё внезапный пример! Допустим, мы хотим понять, влияет ли курение на здоровье человека. Быть может, открою страшную тайну, но тот факт, что баба Срака всю жизнь коптила, как паровоз, и дожила до ста лет, дает не очень много информации. Здоровье у всех людей разное. Быть может, она всю жизнь просто спортсменкой была, работала на свежем воздухе и не стрессовала. Или ещё проще, выиграла в генетическую лотерею. Факторов мульён! И как же быть? Как понять, умирают люди от курения, или это враки снюсового лобби?

Понять можно. Не со стопроцентной уверенностью, но можно. Нужно для этого лишь собрать огромное количество данных о самых разных курящих и некурящих людях. Если курящие люди болеют заметно чаще, то, вероятно, вред есть! Здесь аки пуля резкая в голову должен влететь вопрос: «заметно» — это сколько? Тут то на помощь и приходит математика, а именно, математическая статистика. Она позволяет по нашим данным рассчитать, с какой вероятностью произойдёт то или иное событие, если наше предположение верно.

Что такое вероятность? По-житейски вероятность наступления события в эксперименте можно определить, как частоту наступления этого события. То есть, если при огромном числе бросков монетки решка выпадает примерно в половине случаев, то вероятность выпадения решки приблизительно положим равной 1/2.

Подсчитав частоты заболевания различными болячками среди курящих и среди некурящих, мы можем оценить, кто чаще болеет.

А с пивом что? С пивом то же самое! Если просто сравнивать два выпитых бокала, то на ощущение может повлиять куча факторов. Особенно жадность! Все факторы учесть невозможно, поэтому приходится прибегать к статистике. Итак, будем пытаться выяснить, отличаю ли я на вкус одно пиво от другого.

Табличка. Как пользоваться для нашей задачи? В первом столбце размер первой выборки, во втором — второй. Далее идут различные уровни значимости. Выбираем строку с нужными размерами выборок, выбираем столбец с нужным уровнем значимости. На пересечении искомое число.

Основное предположение

За основное предположение эксперимента положим, что я не могу отличить крафт от магазинного пива. Не вдаваясь в подробности, скажу лишь то, что такую задачу будет просто дальше удобнее проверять. Проверка предположения означает то, что мы попробуем убедиться, удовлетворяют наши данные этому предположению или нет. Мы можем либо принять, либо отклонить это самое предположение. Причём, если мы его принимаем, то мы потом можем его ещё раз проверить какими-нибудь другими способами или собрать побольше данных, в то время как уверенное отклонение нашего предположения подразумевает то, что данные этим свойством уж никак не обладают. Асимметрия и неравенство? Они, родные!

Тут мы словно дети, играющие с хрупкой хрустальной вазой. Если ваза цела, том мы можем продолжать играть с ней до тех пор, пока не разобьем. Но как только ваза разлетится вдребезги, игры с ней тотчас закончатся.

На нашем примере это будет означает то, что если я разницы не увидела, то можно и другие эксперименты поставить, выпить в другой вечер. А если увидела, то другие эксперименты тогда и не нужны, получается. И так на первоначальных данных отличия налицо.

Эксперимент

Для проверки предположения проведём такой эксперимент. Две банки пива разделим на 12 порций. (Вот и сервизу на 12 персон применение нашли) По 6 порций каждого напитка. Мой ̶с̶о̶б̶у̶т̶ы̶л̶ь̶н̶и̶к̶ ассистент, даёт мне порции так, что я не знаю, какое пиво пью. Мне нужно будет эти порции проранжировать от лучшей к худшей. Сделаем это так. Худшей порции я выпишу 1 балл, а лучшей — 12.

В нашем эксперименте получилось такое ранжирование. Порции крафтового были на 1, 2, 5, 6, 9 и 11 местах в моём личном рейтинге. То есть в баллах получили соответственно: 12, 11, 8, 7, 4, 2.

Магазинное пиво было на 3, 4, 7, 8, 10 и 12 местах. Его порции схлопотали 10, 9, 6, 5, 3 и 1 балл соответственно.

Или от лучшего к худшему (К — крафт, М — магазинное):
К, К, М, М, К, К, М, М, К, М, К, М

Статистический критерий

Зачем такая сложная процедура? Ну, для неё можно, например, применить следующие соображения. Подсчитаем суммы баллов каждого напитка. Так, для крафтового получилось 44 балла, а для магазинного 34. Вроде бы магазинное хуже, но сильно ли?

Заметим, что если бы я не могла различать сорта совсем, то при очень большом числе порций в моём рейтинге крафт был бы в среднем не выше, чем магазинное. Я бы просто говорила, какое пиво лучше, абсолютно случайно.

Так, в нашем эксперименте самая вероятная сумма баллов была бы одинакова у обоих напитков, то есть равна 0.5 * (1 + 2 + … + 12) = 39 (Самым внимательным и самым жоским читателям (пенсионерам и школьникам по Вавилову) могу предложить подробнее подумать, а чому так; а также можно попытаться осмыслить, почему справедливо такое соотношение |44 - 39| = |34 - 39| = 5, и почему это далеко не случайность).

Пусть я внезапно отличила 6 раз подряд крафт от магазинного, в то время как разницы нет. Этот процесс можно сравнить с тем, что я из мешка с 6 белыми и 6 черными шарами достала 6 черных шаров подряд. Стоит ли говорить, что такое событие крайне маловероятно? Вероятность такого события примерно равна 1 к 1000!

Представим все возможные ранжирования, которые я могла бы составить. Для каждого ранжирования можно рассчитать минимальную сумму баллов одного из напитков. Заметим, что чем больше сумма баллов отличается от 39, тем менее вероятен такой результат при условии, что я не отличаю крафт от магазинного. Тогда, если мои данные показывают слишком низкую сумму баллов у одного из напитков, то мы уверенно можем утверждать, что разница есть!

Ошибочки

А уверенно — это как? Можно ли это как‑то потрогать? Можно! Уверенность мы будем определять с помощью оценки вероятности допустить ошибку. Какие ошибки мы можем допустить по итогам эксперимента?

Мы можем согласиться с тем, что не отличаем магазинное от крафтового тогда, когда отличия чувствуем. Получается, мы говорим, что предположение выполняется тогда, когда это не так. В таком случае мы можем продолжить ̶п̶ь̶я̶н̶к̶у̶ другие опыты и, например, позже увидеть различия. Такую ошибку иногда называют ложноположительной.

Либо же мы можем попытаться увидеть различия там, где их нет. Тогда с самодовольной ухмылкой мы отринем исходное предположение и будем всю жизнь отдавать больше за мнимый оттенок жадности, горечь алчности и послевкусие переплаты. Нет, конечно, можно и другие эксперименты поставить, но тогда у нас могут быть два противоречащих друг другу результата. И как понять, кто прав, а кто лев? Такую ошибку иногда зовут ложноотрицательной.

Минимизация вероятности первой ошибки может привести к тому, что мы всегда будем видеть какие‑то различия. Действительно, если всегда отвергать исходное предположение, то неправильно принять его мы не сможем.

Минимизация вероятности второй ошибки приведёт к тому, что мы просто никогда не почувствуем разницу между крафтовым и магазинным пивом. Если всегда принимать предположение, то неверно отвергнуть его у нас также не получится.

Ну и кому нужны такие эксперименты? Нужен баланс! Его можно найти следующим образом.

Вторая ошибка равносильна случайно разбитой вазе, и поэтому мы будем стараться держать её в узде. Мы скажем, что хотим, чтобы вероятность второй ошибки была мала и заранее не превышала фиксированного значения. Например, 1 ошибка на 10 экспериментов, так вероятность второй ошибки будем считать не более 1/10. Эта вероятность настолько важна, что для неё даже название придумали — уровень значимости.

Критическое значение

Далее найдем такое число, что если меньшая из двух сумм баллов меньше этого числа, то мы смело отвергнем предположение о том, что разницы между напитками нет. Причем возьмём это число так, что вероятность совершить вторую ошибку будет гарантированно меньше 1/10. Назовем это число критическим значением. (Мы так построили эксперимент, что для ответа на главный вопрос заметки критично, больше сумма баллов у магазинного пива чем это число или нет).

Задача поиска критического значения достаточно муторная. Она заключается в рассмотрении всех возможных ранжирований и подсчете минимальных сумм баллов в них. Далее для каждой возможной суммы баллов мы определяем, какова вероятность её встретить, если разницы между напитками нет. Иначе вероятность того, что если я всегда буду случайно определять, где магазинное, а где крафт, получится ранжирование с именно такой суммой. Можно ещё так, надо найти долю числа ранжирований с фиксированной суммой баллов у магазинного пива среди вообще всех возможных ранжирований при обозначенных выше условиях.

Например, как было показано выше, тот факт, что я везде угадала, где крафт, а где магазинное — маловероятен. Для этого случая минимальная среди двух сумм будет равна минимальной возможной сумме баллов, а именно: 1 + 2 + 3 + 4 + 5 + 6 = 21. Такая сумма может получиться всего в одном ранжировании из всех, поэтому её вероятность можно положить, как 1 к общему числу всех возможных ранжирований.

Так, вероятность того, что получившаяся в эксперименте сумма баллов у магазинного пива (меньшая сумма из двух) не превышает наше искомое число, будет равна вероятности совершить вторую ошибку. То есть, если сумма баллов меньше этого числа, то вероятность того, что мы наотличали там, где ничего не отличается будет точно меньше 1/10.

Число это, как правило, кропотливо ищется ручками. Считаются возможные суммы, их вероятности и прочая-прочая. Благо, всё это давным-давно подсчитано, и чтобы определить нужное число, можно просто подглядеть ответ в табличке (она будет представлена в прикреплённых картинках).

Для нашего эксперимента с 6 пробниками одного пива, с 6 — другого и уровнем значимости равным 1/10 это число равно 30. Так как минимальная сумма баллов равна 34, а 34 явно больше 30, то я могу смело сказать, что разницы между пивом за 450 рублей и за 100 рублей не вижу. Поэтому и нечего, наверное, переплачивать.

Немного оффтоп, но во время расследования наткнулась на перл из РИНЦа.

Усё

На самом деле, проведенные размышления справедливы не только для пивных экспериментов. Такая процедура называется статистическим тестом Уилкоксона (назван в честь дядьки, который предложил его использовать на практике). Этот тест подходит для проверки предположений о том, что две группы наблюдений малоотличимы друг от друга, когда нам ничего неизвестно о данных. Как правило, серьёзные дядьки подходят более основательно. Могут как-то преобразовать данные или посмотреть, какими ещё свойствами они обладают. Но мы выбрали пока что простейший путь, который не требует основательного погружения в математику.

Если тема зайдёт читателям, то можно вполне провести более серьёзное исследование на тему пива, со сбором и подготовкой данных и с регрессионным анализом, конечно. Всё по-взрослому! Это долго, это сложно, но это интересно! Ну что, поищем лучшее пиво в Баку на Неве?

Можете на досуге попробовать построить подобный эксперимент с любым продуктом. Например, взять черный чай принцесса Нури и Гринфилд. Фанфакт: оба бренда чая — продукция ГК «Орими Трейд». Так может, лично для вас пакетики отличаются исключительно этикеткой?!

Очередная задача, кажется, решена! Можно спать спокойно. А вы пейте в меру пиво пенное, жизнью живите отменною и про здравый смысл не забывайте! Всем бобра!

Автор: Лиза Иванова

Оригинал

Источники

1) Ван дер Варден, Математическая статистика. — с. 336.
2) Буре В. М., Парилина Е. М. Теория вероятностей и математическая статистика — с. 328.
3) Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biometrics, 1, 80-83.