Давайте представим, что мы бросаем монету и смотрим, какой стороной она выпадает — орлом или решкой. Все, что мы знаем о монете, — это то, что результаты бросков независимы, и у нас нет способа на них повлиять. Есть ли у нас способ предсказать, какой стороной выпадет монета при следующем броске?
Результат броска — это случайная величина. Если обозначить «решку» числом 0, а «орел» числом 1, то мы можем описать распределение этой случайной величины как . Такое распределение называется распределением Бернулли:
Математическое ожидание и дисперсия этого распределения равны, соответственно:
Но что если мы имеем дело не с отдельным броском монеты, а с серией бросков? Известно распределение величины — числа бросков, где из общего количества бросков . Данное распределение называется биномиальным распределением.
где
Так как броски монеты — это независимые события, мы можем вычислить математическое ожидание и дисперсию биномиального распределения как суммы соответствующих параметров распределения Бернулли:
Предсказание следующего броска
На практике параметры биномиального распределения нам неизвестны. Вместо этого нам могут быть доступны результаты серии бросков этой монеты
Как же мы можем использовать эти данные для предсказания результатов следующего броска?
Метод максимизации правдоподобия
Классический подход к решению этой задачи — оценить параметры распределения по выборке. В нашем случае необходимо оценить один параметр биномиального распределения — . Это можно сделать с помощью принципа максимизации правдоподобия. Идея этого метода — найти такое значение параметров распределения, при которых наблюдаемая выборка будет наиболее вероятной.
Поскольку броски монеты — независимые события, вероятность выборки можно представить как произведение всех вероятностей отдельных событий из этой выборки:
Для удобства максимизировать можно не саму вероятность выборки , а логарифм этой вероятности. Тогда можно воспользоваться свойством логарифмирования, звучащим как «логарифм произведения равен сумме логарифмов»:
Для нахождения максимума этой функции от , нужно взять ее производную по и приравнять ее к нулю:
Таким образом, мы получили оценку параметра , который и является вероятностью события в следующем броске. Если обозначить число событий в выборке как , то мы получим предсказание на основе этой выборки:
Такое предсказание кажется разумным, однако, оно сталкивается с проблемами на небольших выборках. Что, если мы подкинули монету 3 раза, и монета трижды выпала «орлом»? По нашей оценке, вероятность в следующий раз получить «орла» равна 100%, так как . Кажется, что такой результат противоречит здравому смыслу. Для решения этой проблемы можно перейти от частотного анализа к байесовскому подходу.
Байесовский вывод
Байесовский подход позволяет по-другому взглянуть на величины, с которыми мы работаем. В вышеуказанном частотном подходе мы предполагали, что существует «истинное» фиксированное значение , которое мы оцениваем по выборке из распределения с этим параметром . В байесовском подходе мы считаем, что параметр это случайная величина с неизвестным распределением. При этом у нас есть априорное знание об этом распределении, которое мы можем учитывать. А наблюдаемая выборка позволяет получить апостериорное распределение параметра .
Апостериорное распределение получается умножением априорного распределения на вероятность выборки (или функцию правдоподобия). Вероятность выборки пропорциональна произведению членов . Если мы выберем априорное распределение, которое также пропорционально членам этого вида, то апостериорное распределение будет иметь такую же функциональную форму, как и априорное. Это ценное свойство, которое мы хотим обеспечить.
Но как правильно выбрать априорное распределение? Описанное выше априорное распределение задается в виде бета-распределения:
Коэффициент нужен для нормализации распределения, то есть, чтобы .
Математическое ожидание бета-распределения равно:
Для вычисления апостериорного распределения нужно умножить априорное распределение на функцию правдоподобия. Оставляя только члены, зависимые от , получаем, что апостериорное распределение пропорционально:
Мы получили бета-распределение и уже знаем коэффициент для его нормализации. Теперь мы можем получить апостериорное распределение параметра :
Здесь может возникнуть вопрос: «Какой смысл имеют параметры и ?». Из распределения выше видно, что это априорное представление о доле объектов и в выборке. Можно сказать, что каждый новый бросок монеты обновляет наше знание об этих долях и корректирует предыдущую оценку распределения параметра .
Теперь имея выборку и апостериорную оценку распределения , мы можем проинтегрировать по этому распределению для предсказания результата следующего броска:
Это в точности схоже с определением математического ожидания бета-распределения , значит:
Такое предсказание устойчиво к маленьким выборкам. Даже если или в маленьких выборках, полученная оценка результата не будет вырождаться в 0% или 100% благодаря влиянию априорных значений и .
Связь предсказаний из байесовского вывода и метода максимума правдоподобия
Теперь давайте сравним предсказания, полученные методом максимума правдоподобия и байесовским выводом. При увеличении размера выборки предсказание из байесовского вывода стремится к предсказанию по методу максимума правдоподобия:
Это иллюстрирует тот факт, что с увеличением размера выборки влияние априорных значений на результат снижается. Предсказание для , полученное байесовским выводом, всегда лежит между априорным предсказанием и оценкой метода максимума правдоподобия .
Иллюстрация эволюции байесовской оценки с ростом выборки
Ниже можно пронаблюдать, как меняется апостериорное распределение с увеличением выборки из распределения с заданным . В качестве априорного распределения выбрано бета-распределение , то есть распределение со средним значением .
Можно увидеть, что с увеличением размера выборки, начинает двигаться от априорного значения к истинному значению . Также уменьшается дисперсия распределения , указывающая на то, что оценка становится более «уверенной».
Список литературы
- Bishop, Christopher M. Pattern Recognition and Machine Learning. New York :Springer, 2006.
- Deep Learning (Ian J. Goodfellow, Yoshua Bengio and Aaron Courville), MIT Press, 2016.