У вас скорее всего не получится сделать статистически обоснованный подбор личных жизненных привычек и БАДов / Хабр

Допустим, вас не устраивает ваше качество сна. Вы перестали делать очевидно вредные вещи (убрали кофе на ночь), и сон улучшился, но хотелось бы поработать над ним ещё. Коллега по работе даёт вам смесь трав со зверобоем и лавандой. Вы пробуете пить его на ночь вместо кофе, и вроде бы иногда сон действительно становится глубже, чем раньше. Но иногда нет. Вы готовы экспериментировать, но как бы проверить, действительно ли травы работают или это просто случайный разброс?

Или допустим, вы не очень довольны вашей продуктивностью на работе. По заветам из "Atomic Habits" и книг про организацию рабочего процесса вы внедрили несколько полезных микропривычек и улучшений эргономики. Но что делать, когда низковисящие фрукты закончились? Время ограничено - всего, что кто-то называет полезным, не сделать. Некоторые привычки ещё и взаимоисключающие: невозможно за обедом одновременно и общаться с кем-то и сидеть в одиночестве в тишине.

Или например, вы хотите достичь более хороших показателей на рыболовном поприще... вы поняли идею.

"Не недооценивайте силу малых вещей, взятых в большом количестве", - мысль мудрая, но как бы понять, какие именно малые вещи действуют конкретно в вашей ситуации? Если вы проходили курс статистики или слышали слова "AB-анализ", то у вас в голове есть набросок ответа. Выделить целевую метрику, собрать историю данных, затем собрать набор данных после выбранного вмешательства, сравнить средние значения метрики до и после - и готов научно обоснованный ответ. Проблема в том, что если ввязаться в подобный проект без основательного плана, вы в итоге окажетесь с ворохом бесполезных цифр в таблице. Почему именно эта затея не для слабых духом мне бы и хотелось рассказать в этой статье.

TLDR: Большинство эффектов, с которыми у вас есть шанс столкнуться, слишком слабы, чтобы обнаружить их на фоне естественного шума жизни. Даже для сравнительно заметного эффекта необходимо тщательно продумать дизайн эксперимента и уделить ему несколько месяцев.

Обозначения

В тексте используются следующие обозначения:

D - дисперсия (мера разброса случайной величины)
$\sigma$ - среднеквадратичное отклонение (корень из дисперсии)
N(x, D) - нормальное распределение со средним значением в x и дисперсией D
d - d-статистика Кохена (расстояние между пиками двух популяций нормального распределения, нормированное корнем из суммы квадратов их дисперсий)

Для простоты в тексте ниже предполагается, что воздействие не меняет формы распределения (т.е. d изменяется в $\sigma$ исходного распределения). Это слабо влияет на тезисы ниже. Я также знаю про ограниченность использования нормального распределения для создания моделей. Если принять её во внимание, то перспектива самоисследования будет ещё хуже.

Минимальная база знаний для тех, кто хочет прочитать статью, но не знает теории вероятности

Пропустите эту главу, если знаете, что значат символы выше и вы помните основные свойства нормального распределения.

Скрытый текст

Здесь не будет подробного вывода и обоснований. Статья слишком маленькая, чтобы я мог рассказать даже вводное занятие курса статистики. Но вот краткая сводка, чтобы незнакомый со статистикой читатель мог следовать за последующими рассуждениями.

Представьте обычный шестигранный кубик. Если это честный кубик, шанс, что он выпадет на каждую грань, равен 1/6 = 16.66%. Это равномерное распределение - вероятность каждого исхода одинакова. Это можно выразить следующим образом на гистограмме:

По горизонтали отложены исходы, по вертикали - их вероятность. Сумма вероятностей всех исходов равна единице (100%).

Но если мы будем бросать два шестигранных кубика, распределение суммы выпавших значений уже не будет равномерным. Если выписать все возможные исходы

1 + 1 = 2
1 + 2 = 3
2 + 1 = 3
1 + 3 = 4
2 + 2 = 4
3 + 1 = 4
1 + 4 = 5
...
5 + 6 = 11
6 + 5 = 11
6 + 6 = 12

то можно увидеть, что 2 может получиться только если на обоих кубиках выпадет 1 (что случается в 1/36 случаев). 3 может получиться двумя способами: на первом кубике выпадает 1, а на втором - 2, и на первом - 2, а на втором 1. Соответственно, вероятность 2/36. Шанс на выпадение 4 ещё выше - 3/36, и так далее. Больше всего комбинаций, которые дают в сумме 7. Здесь подходят как случаи, где оба кубика выпали на значения посередине диапазона (3+4, 4+3), так и те, где одно малое значение скомпенсировало большое (1+6, 2+5, 5+2, 6+1).

Столбики диаграммы образуют треугольник. Что будет, если вместо этого кидать три шестигранных кубика?

Можно увидеть, что его центр сглаживается, а хвосты - расползаются в стороны. Опять же, так получается, потому что для 3 или 18 нужно чтобы все три кубика выпали на 1 или 6 соответственно. А центральные значения могут получаться как когда все кубики выпадают на средние значения, так и когда малые значения компенсируют большие.

Если взять 25 кубиков, то на графике получается характерная колоколообразная форма:

Подобная кривая для практического применения уже достаточно похожа на нормальное распределение. Очень многие вещи в нашей жизни имеют (около-)нормальное распределение: рост мужчин фиксированного возраста в стране, погрешности измерений большинства приборов, ваше настроение в течение года. Так получается по той же причине, что и с распределением суммы кубиков. У вас хорошее настроение, когда всё идёт как задумано (все кубики выпали на 5-6). У вас плохое настроение, когда ничего не ладится (все кубики выпали на 1-2). Но среднее настроение можно иметь и когда день ничем не примечательный, и когда хорошие вещи компенсируют плохие.

("Не выспался. Зато с утра вспомнил любимого школьного учителя, это дало заряд мотивации. Но по дороге на работу была пробка, появилось раздражение. Хорошо хоть день солнечный; чувствуется, что весна наступает, люблю весну.")

Теория вероятности утверждает, что элементам суммы не обязательно иметь равномерное распределение. Покуда они имеют достаточно "удобную" форму, они будут складываться в нормальное распределение. Это называется центральной предельной теоремой. "Удобность" выполняется очень часто.

Купол может иметь разную ширину, хотелось бы уметь замерять подобный разброс. Просто замерять расстояние от самого левого до самого правого значения на практике сложно, так как значения по краям купола "выпадают" очень редко. Так что на практике используют дисперсию (D), средний квадрат расстояния от центра распределения до элементов, или среднеквадратичное отклонение ( $\sigma$ ), корень из дисперсии.

$D[X] = \frac{1}{n}\sum^n_{i=1}(x_i - \bar x)^2$ $\sigma = \sqrt{D[X]}$

Красные стрелочки на рисунке обозначают расстояния от центра до некоторых точек. Для вычисления среднеквадратичного отклонения мы берём все расстояния, возводим каждое из них в квадрат, складываем, делим на их количество, затем берём квадратный корень из получившейся суммы.

Утверждается, что 68% элементов популяции нормального распределения лежит внутри диапазона $[\bar x - \sigma, \bar x + \sigma]$ и 95% - внутри $[\bar x - 2\sigma, \bar x + 2\sigma]$ . И наоборот: если мы знаем, что 95% элементов нормального распределения лежат внутри определённого диапазона мы может оценить $\sigma$ .

Допустим, у нас есть два набора значений: исходного случайного распределения и того же случайного распределения, смещённого на какую-то величину. Например, база данных, как хорошо написали тест школьники прошедшие 48 недель обучения предмету, и как хорошо - прошедшие 96 недель. Как оценить, насколько сильно улучшают показатели увеличение времени в два раза? Это смещение удобно измерять в единицах $\sigma$ : подобный способ измерения показывает не абсолютное изменение, а разницу по сравнению с естественным разбросом. Эффект в десять баллов может быть и впечатляющим, если типичный разброс составляет пять баллов, так и малостоящим, если разброс - пятьдесят баллов.

Что если вмешательство не только меняет среднее, но и увеличивает разброс значений? Это не страшно, мы берём средний $\sigma$ по определённым правилам и считаем расстояние в нём:

$\bar \sigma = \sqrt{(\sigma_1^2 + \sigma_2^2)/2}$ $d = \frac{(\bar x_2 - \bar x_1)}{\bar \sigma}$

Это называется d-статистика Кохена. Как правило, в научных статьях результаты сообщают именно при помощи неё.

Насколько большие эффекты следует ожидать при самоисследовании?

Сложно ответить на этот вопрос в общем случае. Кто-то оптимизирует качество сна, а кто-то - набор мышечной массы. Откалибруем ожидания - вот d-статистики для некоторых хорошо исследованных эффектов:

Приём креатина (повсеместно используемая пищевая добавка для бодибилдеров) в зависимости от протокола применения и способа измерения результата даёт добавочный прирост показателей в d=0.27-0.59¹
Занятия тяжёлой атлетикой с тренером, а не самостоятельно дают ещё d=0.28-0.4 разницы в зависимости от того как измерять показатели².
Средний эффект от антидепрессантов мета-анализы оценивают в d=0.3³. Меньше в случае несильных случаев депрессии. В реальной жизни, правда, от антидепрессантов следует ожидать гораздо большего эффекта: врач может перебрать несколько лекарств и точно подобрать дозировку.
Насчёт применения медитации осознанности для лечения тревожных расстройств нет полной ясности. Исследования показывают сильный разброс, но средняя оценка в d=0.2 вполне правдоподобна^4,5.
Средней интенсивности (60-80% от максимального веса одного повторения) силовые тренировки уменьшают количество гликированного гемоглобина на d=0.4⁶
Школьные классы финансового обучения дают d=0.15 к показателям финансовых познаний (результаты тестов) и d=0.07 к показателям финансово грамотного поведения (например, увеличение финансовой подушки безопаcности)⁷

С одной стороны, ваша личная жизненная ситуация или биохимия организма может "разгонять" эффекты бесполезные для большинства людей. К тому же, исследования ограничены тем, что одна и та же "доза" эффекта применяется ко всем участникам, а вы можете подстроить "дозу" вмешательства более тонка. С другой стороны, вряд ли вы будете тестировать на себе что-то сильнее чем рецептурные антидепрессанты. Кроме того, скорее всего вы захотите оптимизировать что-то вроде "настроения" или "сил в течении дня". Редко когда что-то влияет и на биологию, и на внешне навязанный режим дня, и на психологию и на привычки, вливающиеся в эти показатель. Так что было бы странно ожидать эффект в d>1 от каких-либо интервенций в этих случаях. Либо вы про них уже знаете и уже делаете (наверняка вы посещали школу - не какой-то конкретный курс, а школу в принципе). Либо вы про них знаете, но не делаете по каким-то хорошим причинам (если переехать жить в буддистский монастырь, наверняка это повлияет на тревожность с очень хорошим эффектом). Либо это какие-то жизнеповоротные решения, которые не случаются просто так, и которые сложно воспроизвести и исследовать: уход от неподходящего партнёра или кардинальная смена профессии.

В итоге, если вы собираетесь оптимизировать свою жизнь подстраиванием привычек и подбором БАДов, то вы "охотитесь" за эффектами c d=0.1 - d=0.4.

Насколько много d=0.1-0.4 означают в реальной жизни?

$0.1\sigma$ для измерения интеллекта это 1.5 IQ. Лишний 1 сантиметр роста - это примерно $0.15\sigma$ в распределении роста взрослых мужчин⁸. Мало, но лишними единицами IQ или сантиметрами роста я бы разбрасываться не стал.
10 перцентиль сборщиков электромоторов в Америке получает 25k$ в год, а 90 перцентиль - 56.5k$⁸. Пристрелочно, среднеквадратичное отклонение этого распределения около 8.5 тысяч в год, а 0.2 от него - 1.7 тысячи в год. На эти деньги можно купить сносный велосипед в Техасе.
Если у человека в 95% случаев от 5 до 45 свободных часов в неделю на хобби, то увеличивающий свободное время на $0.3\sigma$ эффект даст ему лишних 3 часа в неделю. Опять же, не очень много, но этого хватит чтобы играть по одной новой настольной игре в неделю или за 3 недели пройти Dispatch⁹.
Если вы в 95% случаев читаете 40-160 страниц в неделю (400-страничная книга за месяц), то $0.4\sigma$ это плюс 12 страниц в неделю (примерно полторы 400-страничной книги в год).

В медицинской литературе эффекты в $0.2\sigma$ считаются "слабыми", в $0.5\sigma$ - "средними", а в $0.8\sigma$ - "сильными"¹⁰. Из примеров выше видно почему так: $0.2\sigma$ - это действительно не очень много. Но вспомним здесь контекст. Медицинская литература проверяет лекарства против конкретной болезни. Их нельзя давать пациенту сколько угодно и каких угодно. Врачи должны обосновать, почему дают ту или иную таблетку, так как у них бывают побочные явления. В вашей жизни же никто не запрещает вам применить сколько угодно воздействий, пока не закончатся деньги и свободное время. Если бы в примере со свободным временем можно было найти и применить три таких формально "слабых" воздействия, это бы дало человеку 9 лишних свободных часов в неделю. Это целый рабочий день! Так что к идее с наслаиванием кучи эффектов как минимум стоит присмотреться.

Звучит заманчиво, но в чём же тогда проблема?

Сколько-сколько наблюдений?

Чтобы посчитать абсолютный эффект интервенции, мы берём набор наблюдений до вмешательства и после, после чего сравниваем средние значения в наборах. Проблема в том, что нам нужно много данных. Например, на картинке ниже сделано 4 наблюдения, но нам не повезло. Хоть зелёное распределение лежит правее синего, из наших ограниченных данных мы должны заключить, что оно левее, причём сильно:

(С подсчётом среднеквадратичного отклонения для подсчёта d-статистики примерно такая же проблема, но остановимся на средних значениях) Мы можем лишь надеяться, что чем больше будет наблюдений, тем меньше вероятность, что нам не повезёт с каждым из них. Например, здесь разброс частично взаимокомпенсировался:

Подсчёт средней разности даст для графика выше $\bar \Delta=0.6$ , что близко к истинному сдвигу в 0.25, но не слишком.

Суммарное среднеквадратичное отклонение, посчитанное по методу из предыдущей секции равно 1, так что d-value тоже будет 0.6:

$\bar \sigma = \sqrt{(\sigma_1^2 + \sigma_2^2)/2} = \sqrt{(1^2 + 1^2)/2} = \sqrt{2/2} = \sqrt{1} = 1$ $d = \frac{(\bar x_2 - \bar x_1)}{\bar \sigma} = \bar \Delta=0.6$

Сколько же наблюдений нужно, чтобы быть уверенным? Посмотрим, насколько хорошо оценочное значение сходится к истинному эффекту. Вот графики двадцати симуляций, во сколько мы оцениваем разницу между двумя нормальными распределениями с D=1 в зависимости от количества наблюдений. Мы пытаемся обнаружить реальный эффект в d=0.1, d=0.2 и d=0.3 соответственно:

Из этих графиков мы можем сделать несколько выводов:

В среднем, мы действительно сходимся к истинному эффекту. Чем больше наблюдений, тем ближе мы к цели
Тем не менее, вы не знаете заранее, какая ветка симуляции вам досталась. Вы можете как недооценить, так и переоценить эффект вмешательства.
Разброс в оценке сначала уменьшается сравнительно быстро, но уже после 200 наблюдений с увеличением количества наблюдений разброс симуляций начинает меняться слабо. При заданном уровне шума нужно порядка 1200 наблюдений чтобы кривые симуляций начинали попадать в полосу $\pm0.1$ от настоящего значения.
Скорость сходимости очень слабо зависит от истинного значения эффекта.
Это не видно на графиках, но больше всего влияет уровень шума - естественный разброс наблюдаемого значения.

Если вглядеться в графики, то видно, что даже для эффекта c d=0.3 нужно больше 175 наблюдений, чтобы все запуски симуляции хотя бы зарегистрировали положительный эффект. Для d = 0.1 же и вовсе около 1000. Но даже это преуменьшает сложность проведения эксперимента! На практике нам нужно разрешить между вмешательствами имеющими эффект, и вмешательствами без эффекта. Нужно чтобы пучки симуляций для вмешательств с эффектом и без эффекта достаточно разошлись, чтобы мы могли понять линия из какого пучка нам досталась:

По картинке выше видно, что чтобы пучки линий разошлись нужно 600-700 наблюдений

Графики наглядные, но не очень формальные. Что говорит теория?

p-value

В науке для оценки, можно ли отвергнуть нулевую гипотезу (эффект отсутствует, воздействие не несёт эффекта), используется проверка p-value. p-value для эффекта - это вероятность, что нулевая гипотеза верна И мы получили хотя бы настолько сильное отличие между двумя наборами данных. Как правило, считается, что если эта вероятность ниже 5%, то можно отвергнуть гипотезу об отсутствии эффекта. Это широко известный критерий .

Как мы можем оценить вероятность получить наблюдаемую разницу, если никакого эффекта нет? Тут на помощь снова приходит нормальное распределение. Сумма и разность случайных величин распределённых нормально - тоже распределённая нормально величина¹². Так что и разность средних значений $\bar x_2 - \bar x_1$ тоже будет иметь нормальное распределение. Если наша базовая гипотеза верна, и распределения и одинаковы, то пик распределения разности находится в нуле¹³. Можно доказать, что среднеквадратичное отклонение этой разности будет $\sqrt{ \sigma_1^2/n_1 + \sigma_2^2/n_2 }$ . Так что если поделить одно на другое, следующий показатель

$t = \frac{(\bar x_2 − \bar x_1)}{\sqrt{ \sigma_1^2/n_1 + \sigma_2^2/n_2 }}$

будет иметь нормальное распределение с единичной дисперсией и (предположительно) средним в нуле¹⁴. Мы можем сверить реально полученное значение с табличными данными для $\mathcal{{N}}(0, 1)$ , чтобы понять, какая была вероятность получить такое значение случайно.

Вот графики достижения уверенности в нашем заключении в зависимости от количества наблюдений, соответствующие графикам выше. Жирная линия показывает среднее для графиков p-value экспериментов выше. Это не то же самое, что истинный график ожидаемого p-value. Но оно уже показывает, для 95% уверенности нужно очень много наблюдений:

Что же мы должны ожидать теоретически? Мы можем "обратить" описанный выше процесс вывода формулы, и выяснить, сколько данных нужно, чтобы заметить с заданной вероятностью эффект с известной d. Вот несколько сценариев:

Теория говорит, что для 5% ложноположительных и 5% ложноотрицательных результатов нужно

Для d=0.3 - примерно 580 наблюдений (т.е. по 290 на группу до вмешательства и на группу после вмешательства; обратите внимание, что это неплохо совпадает с точкой разрешения пучков графиков d-value выше)
Для d=0.2 - примерно 1300 значений
Для d=0.1 - 5200 (!) значений

Если немного опустить планку, и требовать 5% ложноположительных и 20% ложноотрицательных результатов нужно

Для d=0.3 - примерно 350 значений
Для d=0.2 - 800 значений
Для d=0.1 - 3150 значений

Даже если ещё немного опустить планку, и требовать 20% ложноположительных и 20% ложноотрицательных результатов:

d=0.3 - 200 значений
d=0.2 - 250 значений
d=0.1 - 1800 значений

И наконец, если мы абсолютно уверены, что эффект должен быть положительным, и используем односторонний тест:

d=0.3 - 126 значений
d=0.2 - 280 значений
d=0.1 - 1120 значений

То есть даже если мы значительно снизим планку достоверности и отбросим вероятность, что вмешательство может причинять вред вместо пользы, для не такого уж слабого эффекта в d=0.3 нужно вести наблюдения четыре месяца! Напомню, эффект такой силы имеет первый подобранный антидепрессант на пациента с депрессией средней тяжести. Поставьте крест на попытках замерить эффект всего, что слабее. Витамины (если у вас нет авитаминоза), рыбий жир и лишние 20 минут прогулки днём (если только вы обычно не сидите дома безвылазно) не будут видны даже при тщательном ведении наблюдений.

Дополнительные сложности

Но и это ещё не всё. Следует также обратить внимание на несколько эффектов, которые дополнительно увеличивают требуемое количество наблюдений.

Нелинейные взаимодействия

Очень редко когда эффект от воздействия линеен во всей интересующей области. Чаще всего у вмешательств есть порог насыщения. Первый лишний час прогулки даёт больший эффект, чем третий. Это нестрашно, хотя и заставляет недооценивать эффект частичного воздействия.

Гораздо хуже, что эффект некоторых воздействий по форме напоминает перевёрнутую букву U. Первая чашка кофе даёт бодрость, а пятая - заставляет трястись в гиперконцентрации. Меньше шести часов сна - плохо, но и больше десяти часов сна - тоже плохо. Не всегда просто поймать оптимальный уровень воздействия. По-хорошему следует тестировать несколько уровней силы, а это означает проведение эксперимента по крайней мере 2 раза.

Накопительность, время до срабатывания

Очень многие вещи оказывают эффект не сразу. Например, Атомоксетин (лекарство против СДВГ) имеет эффект от d=0.4 до d=2 (!) в зависимости от группы пациентов и способа измерения симптомов¹⁵, но на его накопление в организме иногда требуется от 4 недель. Так что некоторые пациенты с СДВГ даже такой эффективный препарат могут забросить до того как он окажет воздействие. Результата от походов в спортзал или на психотерапию ждать и того дольше.

Зачастую ещё и непонятно, какой задержки ждать. Если вы исследуете взаимосвязь похудения и боли в спине, то вряд ли стоит ожидать уменьшения боли сразу после похудения. Вред-то спине был нанесён, ей надо зажить. Но каков период выхода эффекта на плато - непонятно.

Побочные условия, сезонность

Один и тот же эффект может быть полезен и бесполезен в разное время. Больше всего здесь влияет время года, но это не единственный вариант. Лишний час прогулки или капсула витамина D зимой может давать больший эффект, чем летом, потому что люди недополучают света и активности в холодное время года. Спортивные БАДы могут давать эффект при профиците калорий и не давать при дефиците. Медитация может улучшать настроение утром, но вредить качеству сна вечером.

Замещающие эффекты

Допустим, вы хотите исследовать, как сказывается на вас недостаток сна. Вы собираете данные о продуктивности на работе в зависимости от того, сколько вы спали - 6 или 8 часов. Но если после шестичасового сна вы пьёте больше чая, и чай оказывает на вас бодрящий эффект, то вы можете и не увидеть спада работоспособности от недосыпа в данных. Необходимо либо зафиксировать все остальные параметры системы (сложно на практике) либо также собирать данные и о них. Поправки на замещающие эффекты усложняют модель. К тому же, далеко не всегда понятно, какие вещи могут выступать заместителями.

"Шумные" единицы измерения

Если вы измеряете свой уровень счастья или энергии, у вас будут проблемы с тем, чтобы давать консистентные оценки. Люди могут отличить самочувствие на 2/10 от 8/10. Но такие крайние оценки у вас будут случаться нечасто. Большую часть времени нужно различать 4/10 от 5/10 и 5/10 от 6/10, а далеко не все умеют так хорошо слушать себя. На второй месяц исследования люди устают это делать и решают между 4 и 5 наугад. При отсутствии систематических искажений оценка всё равно должна рано или поздно сходиться к "истинной". Тем не менее, погрешность измерения накладывается на погрешность "истинного" самочувствия, что увеличивает общий уровень шума, отчего увеличивается и необходимое количество измерений.

Следует "заземлять" желаемые абстрактные метрики либо в опросники, либо в объективные показатели организма. Но заполнение опросника занимает время, и нужна сила воли, чтобы не начинать заполнять его наобум. С объективными показателями организма другая проблема. В современном мире благодаря носимой электронике их легко собирать, но как правило, они связаны с желаемой характеристикой очень опосредованно. Можно использовать разброс сердечного ритма в спокойном состоянии для оценки уровня энергии или тревоги, но связаны они очень опосредованно.

Эффект наблюдателя

Сложно сделать слепое тестирование, когда вы и исследователь и подопытный. Это работает только если вы исследуете таблетки, да и там не все готовы идти на организационные сложности. Вы знаете о желаемом эффекте воздействия и будете подсознательно "подкручивать" оценки в нужную сторону.

Более того, введение мониторинга в принципе влияет на систему. Собирание данных заставляет более осознанно включаться в любые дела. Осознанность - это хорошо, но она также вносит расхождение между экспериментальной ситуацией и реальной. Чеклисты добавляют "трение" в дела, которые раньше проходили автоматически. Излишне тщательное наблюдение за своим уровнем счастья и спокойствия вызывает депрессию и тревогу. Этот эффект работает даже если вы знаете про этот эффект.

Общий шум жизни

Дедлайны на работе, неожиданные поездки, болезни и периоды хорошего настроения будут создавать вам "дыры" в данных. Нужно будет либо решить, какие данные "считаются", либо всё протоколировать. Также нужно решить, что делать с "дырами" в данных.

Лучшее что можно сделать для измерений, это уменьшить общий уровень шума метрики. К сожалению, сложно поместить себя в достаточно контролируемые условия даже на несколько месяцев, чтобы завершить эксперимент. Можно также попытаться собирать метрику чаще, но за определённым (часто неизвестным) порогом, увеличение частоты измерений будет собирать лишь шум.

Итог

"Основанный на данных подбор привычек" звучит здорово и по-научному, но на практике - это очень ситуативная затея. Его стоит применять только если вы

Уверены, что исследуемое вмешательство имеет хотя бы d=0.3 (Посмотрите список эффектов выше. Ожидаете ли вы что эффект от исследуемого вмешательства будет сопоставим с тренировкой с тренером против тренировки без тренера?)
Можете придумать, что сделать с дополнительными сложностями, описанными в предыдущей главе
Готовы посвятить исследованию несколько месяцев

Посчитайте ожидаемую стоимость данных для таких вмешательств. Во сколько бы вы оценили информацию о величине эффекта? Какова ожидаемая стоимость проведения эксперимента? Даже если сравнение этих величин говорит, что исследование проводить всё же стоит, не ожидайте лёгкого пути и быстрого результата.

Значит ли это, что любой подход с собиранием данных будет бесполезным? Вовсе нет. Я осветил конкретный подход к поиску полезных привычек. Целеполагаемый подход со сбором данных полезен во многих других случаях:

Как я уже упомянул, вы не знаете размер эффекта заранее. В редких случаях, когда у вас есть неизвестная вам недостаточность, вполне могут существовать интервенции с эффектом d>1. Скажем, если у вас недостаточность витамина А вы заметите эффект от приёма витаминов. В этом случае вам будет сравнительно просто доказать для себя пользу эффекта.
- Так что, наверное, плодотворной стратегией будет исследовать различного рода интервенции по месяцу, после чего дополнительно исследовать те из них что дали явно положительный эффект.
Иногда само по себе замечание фактов о себе и направление внимания на собственное состояние позволяет понять, в какую сторону менять жизнь.
- Я упомянул, что иногда отслеживание состояния вносит вредное трение в процесс. Но иногда одно лишь отслеживание состояния как раз помогает. В частности, отслеживание спортивных показателей и веса при похудении - стандартная хорошая практика.
- Сложно вписать выбросы с нормальную модель распределения, однако само по себе наличие выбросов позволяет вам задуматься, откуда они взялись, и открыть в себе неизвестные неизвестные.
- Иногда обращение внимания на негативные паттерны позволяет вам решать проблемы до того как они проявятся в полную силу (с другой стороны, см. также: "ипохондрия").
Иногда строгие данные помогают собрать силу воли, чтобы выполнять действия, которые вы уже знаете что необходимы. Приведу личный пример. Я давно определил, что любая загружающая мозг активность после 22:00 вредит моему сну. Тем не менее, я довольно часто не обращал на это внимание, и всё равно ею занимался. Точные показатели, насколько это вредит самочувствию, позволили мне более консистентно следовать своим же рекомендациям.
Я упомянул в статье, что сложно найти эффекты с достойным размером эффекта на такие всеобъемлющие вещи как "счастье" или "силы в течение дня". Оборотная сторона этого - это то что эффекты влияющие на сравнительно узкие биологические вещи искать сравнительно просто. Например, вы вполне можете найти несколько эффектов, влияющие на давление или уровень сахара в крови. Это может быть важно при некоторых заболеваниях.
В редких ситуациях экспериментальные вмешательства создают каскадные изменения и меняют систему достаточно, что простое моделирование при помощи нормального распределения перестаёт быть адекватным ситуации.

Сноски

https://link.springer.com/article/10.1186/s11556-025-00392-9
https://journal.iusca.org/index.php/Journal/article/download/101/184/
https://www.thelancet.com/article/S0140-6736(17)32802-7/fulltext
https://www.mdpi.com/2254-9625/10/3/52
https://pubmed.ncbi.nlm.nih.gov/39740743/
https://academic.oup.com/ehjopen/article/5/5/oeaf093/8231441
https://www.academia.edu/105909537/Financial_education_in_schools_A_meta_analysis_of_experimental_studies
https://ourworldindata.org/human-height
https://www.salary.com/tools/salary-calculator/electric-motor-assembler#google_vignette
https://howlongtobeat.com/game/160618
https://www.medscape.org/viewarticle/569729 (см. также примеры в статье)
Интуиция: если мы получили X сложив результат N кубиков, а Y - M кубиков, то X+Y будет результатом броска N+M кубиков, что только приближает кривую распределения к колоколообразной.
Интуиция: Представьте, что вы вынимаете по паре чисел из одного и того же набора левой и правой рукой, после чего вычитаете из левого правое. В среднем, для каждой пары чисел у вас будет столько же ситуаций (первое-левое, второе-правое), сколько и (первое-правое, второе-левое). Противоположные разности будут гасить друг друга, и в среднем будет получаться ноль.
При неизвестных $\sigma$ эта статистика на самом деле имеет t-распределение, но на достаточно больших выборках и нашем уровне точности это не играет роли.
https://journals.sagepub.com/doi/pdf/10.1177/2045125316647686