Можно ли считать статистику при малом количестве данных?

    В целом ответ – да. Особенно, когда есть мозги и знание теоремы Байеса.

    Напомню, что среднее и дисперсию можно считать только, если у вас имеется определенное количества событий. В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений. С чем это связано – вопрос философский. Почему я не могу просто взять и посчитать среднее, если у меня есть 5 измерений? По идее ничто не мешает, только среднее получается нестабильным. После еще одного измерения и пересчета оно может сильно измениться и полагаться на него можно начиная где-то с 30 измерений. Но и после 31го измерения оно тоже пошатнется, только уже не так заметно. Плюс добавляется проблема, что и среднее можно считать по разному и получать разные значения. То есть из большой выборки можно выбрать первые 30 и посчитать среднее, потом выбрать другие 30 и тд … и получить много средних, которые тоже можно усреднять. Истинное среднее бывает недостижимо на практике, так как всегда имеем конечное количество измерений. В таком случае среднее является статистической величиной со своим средним и дисперсией. То есть измеряя среднее на практике мы имеем в виду «предположительное среднее», которое может быть близко к идеальному теоретическом значению.

    Попробуем разобраться в вопросе, на входе мы имеем некоторое количество фактов и хотим на выходе построить представление об источнике этих фактов. Будем строить мат модель и использовать теорию Байеса для связки модели и фактов.


    Рассмотрим уже заезженную модель с ведром, в которое насыпали много черных и белых шаров и тщательно перемешали. Пусть черным соответствует величина 0, а белым 1. Будем их случайно вытаскивать и считать пресловутое среднее значение. По сути это и есть упрошенное измерение, так как назначены числа и поэтому и в данном случае имеется среднее значение измерений, которое зависит от соотношения разных шаров.

    Вот тут натыкаемся на интересный момент. Точное соотношение шаров мы можем вычислить при большом количестве измерений. Но если количество измерений мало, то возможны спецэффекты в виде отклонения от статистики. Если в корзине 50 белых и 50 черных шаров, то возникает вопрос — есть ли вероятность вытащить 3 белых шара подряд? И ответ — конечно есть! А если в 90 белых и 10 черных, то эта вероятность повышается. И что думать о содержимом урны, если так повезло, что в самом начале совершенно нечаянно вытащили именно 3 белых шара? – у нас есть варианты.

    Очевидно, что получить 3 подряд белых шара равна единице, когда у нас имеется 100% белых шаров. В других случаях эта вероятность меньше. А если все шары черные, то вероятность равна нулю. Попробуем систематизировать эти рассуждения и привести формулы. На помощь приходит метод Байеса, который позволяет ранжировать предположения и давать им числовые значения, определяющие вероятность того, что данное предположение будет соответствовать реальности. То есть перейти от вероятностного истолкования данных к вероятностному истолкованию причин.

    Как именно можно численно оценить то или иное предположение? Для этого потребуется модель, в рамках которой мы будем действовать. Слава богу, она простая. Множество предположений о содержимом корзины мы можем записать в виде модели с параметром. В данном случае достаточно одного параметра. Этот параметр по сути задает непрерывный набор предположений. Главное, чтобы он полностью описывал возможные варианты. Двумя крайними вариантами являются, только белые или только черные шары. Остальные случаи где-то посередине.

    Допустим, что $\theta$– это доля белых шаров в корзине. Если мы переберем всю корзину и сложим все соответствующие шарам нули и единицы и поделим на общее количество, то $\theta$– будет означать и еще среднее значение наших измерений. $\theta \in [0,1]$. (cейчас $\theta$ часто используется в литературе, как набор свободных параметров, который требует оптимизации).

    Самое время перейти к Байесу. Сам Томас Байес заставлял жену случайно бросать мячик, сидя к ней спиной и записывал, как его предположения соотносятся с фактами, куда он полетел на самом деле. Томас Байес пробовал на основе полученных фактов улучшить предсказания следующих бросков. Будем как Томас Байес считать и думать, а спонтанная и непредсказуемая подруга будет вынимать шарики.

    Пусть $D$– это массив измерений (data). Используем стандартную запись, где знак $|$ означает вероятность выполнения события слева, если уже известно, что другое событие справа выполнилось. В нашем случае это вероятность получения данных, если известен параметр $\theta$. А так же присутствует случай наоборот — вероятность иметь $\theta$, если известны данные.

    $P( \theta | D) = \frac{ P(D | \theta) \cdot P(\theta) }{P(D)}$


    Формула Байеса позволяет рассмотреть $\theta$, как случайную величину, и найти наиболее вероятное значение. То есть найти наиболее вероятный коэффициент $\theta$, если он неизвестен.

    $\theta = argmax P( \theta | D )$



    В правой части имеем 3 члена, которые нужно оценить. Проанализируем их.

    1) Требуется знать или вычислить вероятность получения таких данных при той или иной гипотезе $P( D | \theta )$. Получить три белых шара подряд можно, даже если там полно черных. Но наиболее вероятно их получить при большом количестве белых. Вероятность получить белый шар равна $P_{white}=\theta$, а черный $P_{black}=(1-\theta)$. Поэтому если выпало $N$ белых шаров, и $M$ черных шаров, то $P( D | \theta ) = \theta^{N} \cdot (1-\theta)^{M}$. $N$ и $M$ будем считать входными параметрами наших расчетов, а $\theta$ — выходной параметр.

    2) Необходимо знать априорную вероятность $P(\theta)$. Вот тут натыкаемся на тонкий момент моделестроения. Мы не знаем эту функцию и будем строить предположения. Если нет дополнительных знаний, то будем считать, что $\theta$ равновероятно в диапазоне от 0 до 1. Если бы мы имели инсайдерскую информацию, то больше знали бы о том, какие значения более вероятны и строили бы более точный прогноз. Но так как такой информации не имеется, то положим $ \theta \sim равномерно[0,1] $. Так как величина $P(\theta)$ не зависит от $\theta$, то при вычислении $\theta$ она не будет иметь значения. $P(\theta)=1$

    3) $P(D)$ — это вероятность иметь такой набор данных, если все величины случайны. Мы можем получить данный набор при разных $\theta$ с разной вероятностью. Поэтому учитываются все возможные пути получения набора $D$. Так как на этом этапе еще неизвестно значение $\theta$, то надо проинтегрировать по $P(D) = \int_{0}^{1} P(D|\theta) P(\theta) d\theta $. Чтобы это лучше понять, надо решить элементарные задачи, в которых строится байесовский граф, а потом перейти от суммы к интегралу. Получится такое выражение wolframalpha, которое на поиск максимума $\theta$ не повлияет, так как эта величина не зависит от $\theta$. Результат выражается через факториал для целых значений или в общем случае через гамма функцию.

    По сути вероятность той или иной гипотезы пропорциональна вероятности получения набора данных. Другими словами, — при каком раскладе мы скорее всего получим результат, тот расклад и наиболее верный.

    Получаем такую формулу

    $P( D | \theta) = const \cdot P( \theta | D ) $



    Для поиска максимума дифференцируем и приравниваем к нулю:
    $0 = \theta^{N-1} \cdot (1-\theta)^{M-1} \cdot (N(\theta-1) + M\theta) $.
    Чтобы произведение было равно нулю надо, чтобы один из членов был равен нулю.
    Нас не интересуют $\theta=0$ и $\theta=1$, так как в этих точках нет локального максимума, а третий множитель указывает на локальный максимум, поэтому

    $\theta=\frac{N}{N+M}$

    .

    Получаем формулу, которую можно использовать для прогнозов. Если выпало $N$ белых и $M$ черных, то вероятностью $\frac{N}{N+M}$ следующий будет белый. Например было 2 черных и 8 белых, то следующий белый будет с вероятностью 80%.

    Желающие могу поиграться с графиком, вводя разные показатели степени:ссылка на wolframalpha.


    Как видно из графика, единственный случай, когда $P( D | \theta )$ не имеет точечного максимума — это при отсутвии данных $N=0, M=0$. Если же мы имеем хотя бы один факт, то максимум достигается на интервале $[0,1]$ в одной единственной точке. Если $N=0$, то максимум достигается в точке 0, то есть если все шары выпали черные, то скорее всего все остальные шары тоже будут черными и наоборот. Но как уже упоминал, маловероятные комбинации тоже возможны, особенно, если купол нашего распределения пологий. Для того, чтобы оценить однозначность нашего прогноза требуется оценить дисперсию. Уже из графика видно, что при малом количестве фактов дисперсия большая и купол пологий, а при добавлении новых фактов дисперсия уменьшается и купол становится более острым.

    Среднее (первый момент) по определению
    $\mathbb{M_{1}} = \int_{0}^{1} \theta \cdot P(\theta|D) d\theta $.

    По определению дисперсия (второй центральный момент). Его то и будем считать далее в скрытом разделе.
    $\mathbb{M_{2}} = \int_{0}^{1} (\theta - \mathbb{M_{1}} )^{2}P(\theta|D) d\theta $.

    --- раздел для пытливых умов ---
    Давайте получим $P( \theta | D)$ аналитически полностью, если еще не устали. Для этого приведем еще раз все члены из формулы Байеса, включая константные:
    $P(\theta)=1$
    $P(D) = \int_{0}^{1} P(D|\theta) P(\theta) d\theta = \int_{0}^{1} \theta^{N} \cdot (1-\theta)^{M} d\theta = \frac{N!M!}{(N+M+1)!}$ ссылка на wolframalpha
    $P( D | \theta ) = \theta^{N} \cdot (1-\theta)^{M}$

    Формула Байеса полностью для нашего случая выглядит так:

    $P( \theta | D ) = \theta^{N} \cdot (1-\theta)^{M} \cdot \frac{(N+M+1)!}{N!M!}$



    Отсюда среднее после подстановки
    $\mathbb{M_{1}} = \int_{0}^{1} \theta \cdot P(\theta|D) d\theta = \int_{0}^{1} \theta \cdot \theta^{N} \cdot (1-\theta)^{M} \cdot (\frac{N!M!}{(N+M+1)!})d\theta = \frac{(N+1)!M!}{(N+M+2)!} \cdot \frac{(N+M+1)!}{N!M!}$.

    Используем элементраные знания $(N+1)!=(N+1) \cdot N!$ и сокращая дроби

    $\mathbb{M_{1}} =\frac{N+1}{N+M+2} $



    Формула первого момента соответствует смыслу эксперимента. При преобладании белых шаров момент уходит в 1, а при преобладании черных стремится к 0. Она даже не капризничает, когда нет шаров, и довольно честно показывает 1/2.

    Дисперсия выражается еще формулой, с которой будем работать.
    $\mathbb{M_{2}} = \mathbb{M_{1}}(\theta^2) - \mathbb{M_{1}}(\theta)^2 $.
    Первый член $\mathbb{M_{1}}(\theta^2) $ по большей части повторяет формулу для $\mathbb{M_{1}}( \theta )$, используется — $\theta^2$
    $\mathbb{M_{1}}(\theta^2) = \int_{0}^{1} \theta^2 \cdot \theta^{N} \cdot (1-\theta)^{M} \cdot (\frac{(N+M+1)!}{N!M!})d\theta = \frac{(N+2)!M!}{(N+M+3)!} \cdot (\frac{(N+M+1)!}{N!M!})$

    $=\frac{(N+2)(N+1)}{(N+M+3)(N+M+2)}$

    ,a второй уже подсчитан, поэтому
    $\mathbb{M_{2}} = \frac{(N+2)(N+1)}{(N+M+3)(N+M+2)} - \frac{N+1}{N+M+2}\cdot \frac{N+1}{N+M+2}$

    В конечном итоге получаем:
    $\mathbb{M_{2}}= \frac{ (M+1) \cdot (N+1) }{(N+M+2)^2 \cdot (N+M+3) }$
    Как видно дисперсия уменьшается при добавлении данных и она симметрична относительно смены $N$ и $M$ местами.

    Можно подвести итоги выкладок. При малом количестве данных надо иметь модель, параметры которой мы будем оптимизировать. Модель описывает набор предположений о реальном состоянии дел и мы выбираем наиболее подходящее предположение. Мы считаем апостериорные вероятности, если уже известны априорные. Модель должна покрывать возможные варианты, которые мы встретим на практике. При малом количестве данных модель будет выдавать большую дисперсию для выходных параметров, но по мере увеличения количества данных дисперсия будет уменьшаться и прогноз будет более однозначным.

    Надо понимать, что модель, — это всего лишь модель, которая многого не учитывает. Её создает человек и вкладывает в неё ограниченные возможности. При малом количестве данных скорее сработает интуиция человека, так как человек получает намного больше сигналов из внешнего мира, и быстрее сможет сделать выводы. Такая модель скорее подойдет как элемент более сложных расчетов, так как Байес масштабируется и позволяет делать каскады из формул, которые уточняют друг друга.

    На этом я бы хотел закончить свой пост. Буду рад вашим комментариям.


    Ссылки

    Wikipedia: Теорема Байеса
    Wikipedia: Дисперсия
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 49

      0
      В универе когда учился и подрабатывал на полставки один хороший профессор попросил сделать электронную версию ценной ему книги. Вот сейчас поискал в сети и нашел название. Книга называлась: Гаскаров, Шаповалов «Малая выборка». Показалась мне очень интересной, но в студенческие годы времени на неё не нашел.
        0
        Да было бы интересно заглянуть в текст.
        0
        В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений.
        Колдунство какое-то которое заставляет тупо заучивать числа не понимая сути. Проблема ведь не в том что по 29 измерениям дисперсию считать нельзя, а по 30 уже можно. Проблема в статистической значимости гипотез которые можно построить по таким измерениям.
        В целом статья совсем слабая — даже для школьников. Я когда решил учить эконометрику остановился на курсе Б.Б. Демешева из НИУ ВШЭ (он есть на онлайн площадках). Вот там мат. аппарат даётся очень хорошо — вся мат. статистика по полочкам раскладывается. И программирования в R там хватает с головой.
          0
          У меня не было цели осветить всю мат статистику. Просто напомнил, что есть метод, который дает считать статистику с одного примера. И дает обратный ход мысли — от заданных данных к вероятности причин.
            0
            Просто напомнил, что есть метод, который дает считать статистику с одного примера.


            Извините, но нет, нет такого метода.
            Это как сказать, что вероятность встретить динозавра = 50%.
              0
              Если известны априорные вероятности, то можно считать апостериорные по одному случаю. В таких вопросах, как причина возникновения вселенной — неизвестны априорные. А вот в вопросах вынимания шариков — априорные известны и можно проводить оптимизацию параметров модели.
                0
                Вы пишите «Если». До этого писали «есть метод… с одного примера». Почувствуйте разницу. И теорема Байеса — это не «серебряная» пуля.
                Если мы априори знаем, что динозавры вымерли, то как построить фактическую выборку, пусть даже с одним измерением?
                Одним измерением можно более-менее опровергнуть гипотезу, но не подтвердить. Что вы вкладывает в слова «считать статистику» — для меня загадка.

                P.s. Изменено, когда заметил, что отвечаю автору.
                  0
                  Прошу прощения, не сразу заметил, что вы и есть автор, посыпаю голову пеплом.
                  Мой посыл прост, теорема Байеса не дает нам дополнительных преимуществ или какого либо улучшения. Это просто инструмент, как молоток или отвертка. В статистике выбор модели и однородность выборки имеют куда более весомое значение. Границы применимости одного измерения или n-измерений как раз напрямую и зависят от выбранной модели.
                    0
                    Да, все зависит от того, насколько модель покрывает реальные случаи. А в случае с динозаврами, — как это узнать, покрывает ли она или нет? Нужны дополнительные данные.

                    Но у Байеса есть один плюс — масштабируемость. Вы можете построить несколько моделей и связать их. Они будут уточнять друг друга из разных источников.

                    В принципе модель — это модель, а не реальность. По аналогии: карта — это не местность. Нельзя сделать карту идентичную местности. Местность изменяется со временем и содержит мелкие детали. И так же нельзя сделать точную модель, на которую можно положиться во всех случаях. Можно только попытаться сделать что-то, что будет полезно для определенных случаев.

            0
            На длинах получающихся серий при смене лечения с тестируемого на контрольное и обратно, основано много адаптивных дизайнов контролируемых клинических испытаний, там, где важно сократить число испытуемых вообще и размер группы, получающей худший вариант. Деталей не помню, но этот подход был изобретен в Штатах во время второй мировой и долгое время засекречен, так как позволял сильно уменьшить расход боеприпасов при контрольных отстрелах.
              +1
              Раз уж тут статистический уголок ;) спрошу: где-то есть теория и практика измерений несколькими приборами? Я не смог найти. Т.е. не как описано выше (у нас есть N измерений постоянной величины одним и тем же прибором), а у нас есть M измерений меняющейся величины разными приборами (в отдельные моменты времени). Каждый прибор, конечно, имеет свои систематические и случайные ошибки, и поэтому кажется, что этот случай не сводится к повторным измерениям одним прибором. Интересует истинное значение измеряемой величины (хаха, ок, мат.ожидание или другая оценка) и сигма и другие характеристики. Самое простое, конечно, это среднее, но может есть что-то получше? Или, скажем, если погрешность 20 приборов 1%, и ещё пяти — 0.2%, то как подсчитать оценку величины и какова погрешность измерений 25 приборами?
                0
                Где-то была задачка про больного, которого проверяют на приборе и обнаруживают редкую болезнь. Прибор может иногда врать и болезнь довольно редкая. Надо было посчитать вероятность реальной болезни. Получались забавные числа, — что не надо паниковать, а надо заново проверяться. Там был расчет пр Байесу с повторной проверкой на том же приборе и на другом приборе.
                  +1
                  Вот здесь Eliezer S. Yudkowsky > Rationality > An Intuitive Explanation of Bayes' Theorem очень хорошо, понятно и доступно — в соответствии с названием.
                    0
                    хорошо разложено,

                    но в таких задачках иногда не учитывают случай, когда прибор работал с ошибкой, но тем не менее выдал правильный результат. Если это учесть, то будет еще одна ветка в байесовском графе и финальные числа немного изменятся
                      0
                      Извините, немного не понял.
                      Рассматривается четыре типа исходов:
                      cancer & positive
                      cancer & negative
                      healthy & positive
                      healthy & negative
                      Какой из них этот случай?
                        0
                        должен быть еще один уровень разбивки
                        false positive
                        true positive
                        false negative
                        true negative

                        вопрос разбирается например тут
                        en.wikipedia.org/wiki/Precision_and_recall
                          0
                          Так это оно и есть.
                          Мы ищем случай заболевания.
                          Перевожу в вашу систему координат.

                          cancer & positive == true positive
                          cancer & negative == true negative
                          healthy & positive == false positive
                          healthy & negative == false negative
                            0
                            cancer & positive == true positive
                            cancer & negative == true negative <=======
                            healthy & positive == false positive
                            healthy & negative == false negative <======

                            Ничего не напутали?!
                              0
                              Ничего.
                              Если человек болен, значит ответ true.
                              В чём сомнения?
                                0
                                Уверены, что больной с отрицательным результатом — это истинно негативный, а здоровый с отрицательным — ложно негативный? Мне всегда казалось наоборот…
                                  0
                                  Смотря какого результата ожидаете :)
                                  Обычно за истину берётся то, что определяется.
                                  Если определяете болезнь, то и истинным исходом будет наличие заболевания.
                                    0
                                    Слушайте, зачем Вы вносите какие-то удивительные вещи в четырехклеточные таблицы?
                                    1. наличие болезни и положительные тест — true positive
                                    2. наличие болезни и отрицательный тест — false negative
                                    3. отсутствие болезни и положительный тест — false positive
                                    4. отсутствие болезни и отрицательный тест — true negative

                                    Далее из этих четырех долей получают чувствительность, специфичность и все-все-все остальное.
                                    У вас название пунктов 2 и 4 перепутаны. Зачем спорить?
                                      0
                                      У меня перепутаны? :)
                                      Смотрите что пишете:
                                      1. наличие болезни и положительные тест — true positive
                                      2. наличие болезни и отрицательный тест — false negative

                                      То есть, и в первом и во втором случаях болезнь есть, но в первом она маркируется как true, а во втором как false.
                                      Комментарии излишни.
                                        +1
                                        en.wikipedia.org/wiki/Sensitivity_and_specificity
                                        Не выдумывайте собственные смыслы для общеупотребительных терминов.
                                          0
                                          Я понял о чём речь.
                                          Вы правы, тут с точностью до маркировки.
                                          В маркировке en.wikipedia.org/wiki/Sensitivity_and_specificity да, у меня неправильно.
                                            0
                                            Это не маркировка, а устоявшаяся терминология. Которую Вы использовали неверно. That's simple.
                                              0
                                              Я рад, что вы знаете английский.
                                              Ещё раз — я писал в системе координат болезнь есть/нет -> true|false, оценка -> positive|negative.
                                              Посмотрите здесь
                                              Могу попросить прощения, что случайно ввёл в заблуждение, если хотите.
                              0
                              Я как-то пересчитывал на такой вариант. Получались небольшие различия в числах.

                              cancer & true positive
                              cancer & false positive

                              cancer & true negative
                              cancer & false negative

                              healthy & true positive
                              healthy & false positive

                              healthy & true negative
                              healthy & false negative


                              Это на самом деле известная проблема измерений. Когда результат устраивает, то приборы не проверяются на работоспособность.
                                0
                                Извините, но тут путаница.
                                Вы же сами мне приводили ссылку про Precision and recall.
                                Это основополагающие вещи для определения качества оценки.
                                Давайте для простоты перейдём на русский язык.

                                Мы работает с гипотезой с двумя исходами (рак/здоровый).
                                В случае определения заболевания пациенты находятся в двух группах: имеющие заболевание (рак) и не имеющие (здоровый).
                                Это реальные объективные данные, которые нам не известны.

                                С помощью прибора пытаемся определить кто больной, а кто нет.
                                Прибор выдаёт свои да/нет, и может ошибаться.
                                Тогда получается четыре исхода:
                                1. человек болен, и прибор говорит, что он болен (рак & да)
                                2. человек болен, но прибор ошибается и говорит, что он здоров (рак & нет)
                                3. человек здоров, но прибор ошибается и говорит, что он болен (здоров & нет)
                                4. человек здоров, и прибор говорит, что он здоров (здоров & нет)

                                Всё, больше исходов нет.
                                Из них 1 и 4 — это правильные ответы, а 2 и 3 — ошибки.
                                2 исход называется ошибкой первого рода (гипотеза правильная, а оценка ошибочна)
                                3 исход — ошибкой второго рода (гипотеза неправильная, на самом деле человек здоров, а прибор перебдел).

                                Стоимости ошибок первого и второго рода, как правило, разные, поэтому и приборы настраиваются соответственно.
                                Для турникета в метро будет дороже ошибка первого рода, и её надо минимизировать, а у системы предупреждения о ракетном нападении — дороже ошибка второго рода.
                                  0
                                  Можно и так, только не учитывается, что нерабочий прибор может показать правильный результат. Я делал пересчет с учетом этого случая и числа различались процентов на 5%. Но я думаю, что можно найти параметры, когда будет более заметное расхождение.

                                  Есть тенденция считать, что если прибор дает результаты, которые логичны и вписываются в теорию, то значит прибор правильно работал. А если результат не вписывается в теорию, то прибор проверяется и эксперименты повторяются.

                                  Но иногда совпадение с теорией — это просто совпадение. Правильнее проверять в обоих случаях.
                                    +1
                                    Можно и так, только не учитывается, что нерабочий прибор может показать правильный результат.

                                    Что это значит?
                                    Вы понимаете, что «прибором» можно считать и подбрасывание монетки?
                                    И на этом основаны некоторые статистические проверки.
                                    Когда сравнивается ответ настоящего прибора и «прибора»-монетки.
                                    Например, позволяет избежать эффекта Бонферрони.
                                    Вот выдержка из «Mining of Massive Datasets», прочтите, это интересно.

                                    Но всё таки как? Как вы делали пересчёт?
                                      0
                                      Чуть позже выкладки воспроизведу.…

                                      Возникла мысль про Бонферрони. Я про это тоже думал только с другой стороны. Есть строгое доказательство, что в любом довольно большом массиве случайных целых чисел можно найти арифметическую последовательность. На этот счет есть теория Рамсея и теорема Семереди. К сожалению в объяснены они в википедии слишком мудрено. Принцип такой, что в любом большом хаосе можно найти немного порядка.
                  0
                  Финальная картинка, где белка даёт пять — позитивчик! :)
                    0
                    она просит еще «данных» :)
                    +1
                    Прошу прощения за критику, но статья капитанская, а формулы вставлены для научноподобности.

                    Можно подвести итоги выкладок. При малом количестве данных надо иметь модель, параметры которой мы будем оптимизировать. Модель описывает набор предположений о реальном состоянии дел и мы выбираем наиболее подходящее предположение. Модель должна покрывать возможные варианты, которые мы встретим. При малом количестве данных модель будет выдавать большую дисперсию для выходных параметров, но по мере увеличения количества данных дисперсия будет уменьшаться и прогноз будет более однозначным.


                    Этот пассаж, который вынесен в итог всей статьи является чуть ли не первопричиной статистики как науки.
                    Основная задача статистики — проверка гипотез, в частности, на соответствие теоретической модели. Чем больше мы знаем априори об исследуемой модели, тем меньше нам нужно фактических данных, чтобы подтвердить или опровергнуть гипотезу.
                    Это просто «медицинский» факт.

                    Проблема широкого применения статистических методов (например в медицине) в том, что модель подгоняют под статистические измерения, которые весьма ограничены и есть проблемы с однородностью выборок, в то время как модель должна быть выбрана заранее исходя из фундаментальных предположений, и должна быть подтверждена или опровергнута с какой-то вероятностью статистическими данными.

                      0
                      А я не спорю. Нужно знать априорные, чтобы считать апостериорные. Плюс есть ход мысли от фиксированных данных к вероятности причин, а не стандартный ход от фиксированной модели к вероятным данным.
                      0
                      исправьте «поразомну».
                        0
                        исправил. это словарь решил «поразмять»
                        +1

                        Статья понравилась, но есть некоторые придирки. Статистика — это функция от выборки. Когда данных мало для изучения поведения статистики (интервалов например), пользуются бутстрапом. Это все "обычная" статистика.


                        Байесовская действительно о большем уровне уверенности в гипотезе (или её опровержение) при получении новых свидетельств (данных). Многие называют это дело верой скорее, если так, то я верю. Потому что (спасибо за аналогию) изучая местность, мы обновляем карту.

                          0
                          Если у нас есть возможность получать больше данных, то проблемы со статистиками можно решать массой способов. Но если максимальный объём выборки мал (меньше 30), то ваш метод в принципе не может улучшить статистическую значимость — среднее и дисперсия в первую очередь нужны для проверки статистических гипотез, по ним одним решения не принять.

                          Поэтому в статистике при малых выборках используют критерии, не использующие среднее и дисперсию, которые завязаны на приближении нормальным распределением. Примерами могут служить ранговая корреляция, критерий Манна-Уитни, точный тест Фишера и другие.
                            0
                            Моделей много. Можно даже собрать супермодель, которая всех объединяет. Приписать каждой модели коэффициент её участия и оптимизировать эти коэффициенты точно так же, как я в статье оптимизирую theta

                              0
                              Собирать супермодель это некорректный подход, при получении большого числа вторичных характеристик растёт вероятность ошибок первого рода.

                              Нельзя в статистике просто брать и что-то считать. Цель исследования должна быть поставлена заранее, и выбран метод, который лучше всего подходит для задачи. Пробовать различные подходы — путь к ошибкам.
                                0
                                Не спорю, моделестроение — это тонкий процесс. Кто-то боится 5 свободных параметров включить. А кто-то и 200 миллионов включает. Например, глубокие нейронные сети содержат очень много параметров и каким-то образом выдают правильный результат несмотря на то, что эти параметры плавают.
                                  0
                                  Так количество возможных параметров очень сильно зависит от исходных данных и их объёма. В рамках исходной задачи (малый объём выборки) предпочтительней являются модели не использующие среднее/дисперсию.
                                    0
                                    Большая выборка включена в априорные распределения, которые подаются на вход Байеса. Но мы можем еще и выбирать между несколькими распределениями, делая их более или менее вероятными. Достаточно получить один белый шар, чтобы заключить, что белые шары имеются в большой выборке.
                            0
                            Нас учили, ч то при заданных условиях надо измерять на менее трех раз, а натягивание кривой на данные обязательно сопровождается доверительным интервалом и вероятностью соответствия. Приведенный пример про шары — полностью случайный процесс. Физики обычно имеют «правдоподобную математическую модель и зависимость», а измерение проводится для сравнения с «теоретической» зависимостью. Точность измерений определяется сравнением конкурирующих математических моделей явления.
                            А вообще, вопрос интересный, но думаю, на него есть четкий ответ (хотя я его не знаю)!
                              0
                              Методов много, и даже можно свои придумывать. В данном случае на входе подаются так называемые априорные распределения. То это доопытные, но в тоже время хорошо проверенные функции. Насколько они удачно покрывают возможные экспериментальные процессы, настолько можно получать достоверные приближения. Плюс физики стремятся изолировать явления, чтобы они были простыми и хорошо описывались. В физике важна повторяемость и проверяемость. В конечном счете мерилом удачности модели является сам человек и насколько они считает полезными те или иные знания.
                              0
                              В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений. С чем это связано – вопрос философский.

                              Технические методички не читал (читал медицинские), но рискну предположить, что это числа из контекста сравнения выборок тестом Стьюдента и дисперсионным анализом, для корректного использования которых нужна относительная нормальность распределения внутри каждой выборки. Если в наличии только несколько измерений на выборку и нет априорного знания, что распределение должно быть нормальным, проверка нормальности имеет мало смысла. Отсюда и грубое правило, что для использования параметрических тестов нужно где-то 20-30 измерений на выборку, чтобы сначала иметь возможность проверить соответствие гауссиане. Иначе — непараметрические тесты в помощь.

                              Рассмотрим уже заезженную модель с ведром, в которое насыпали много черных и белых шаров и тщательно перемешали.

                              В постановке экспериментов в физике и технике ничего не понимаю, зато понимаю в биологии и медицине. И с точки зрения этих областей, данный пример звучит абсолютно искусственно и ну вообще никак не помогает. Практическая задача в простейшем случае звучит примерно так: есть две выборки по три измерения, и надо оценить, есть ли какая-то разница между группам? Кстати, применение байесовского подхода в таком примере более-менее разжёвано здесь.
                                0
                                Без априорных знаний, наверное считать невозможно. Но откуда они берутся? — довольно тонкий вопрос. Идеальные модели берутся из математики, которая оперирует предельными приближениями, которых в природе не существует, так как в природе всегда конечное число событий. А когда вы исследуете что-то абсолютно новое, когда мало данных? — все зависит от везения — насколько вы угадали априорную модель, стоящую за процессом. Потом, со временем модель получает больше или меньше подтверждений благодаря большому количеству данных. В описанном подходе модель еще имеет свободный параметр, то есть описана сразу непрерывная пачка моделей. И получаемые данные уточняют свободный параметр. Вот насколько удачно эта пачка моделей покрывает реальный процесс и зависит её качество.

                              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                              Самое читаемое