Матстат и опоздания на работу
Привет, народ! Хочу поделиться с вами небольшим наблюдением, которое я недавно открыл.
В последнее время проблема с опозданиями не так уж остро стоит, ведь большинство работников, особенно в IT-сфере, работают на удалёнке. Однако, остались еще те послендние из могикан, кто вынужден ходить на работу по-старинке в офис.
Пересматривая этот момент из оригинальной Матрицы, после отвратительной четвертой части, я задумался, над таким явлением, как опоздание на работу. Неужели опоздание на работу не может быть случайным, независящим от работника фактором, чисто с математической точки зрения? Безусловно, с точки зрения работодателя, любое опоздание должно караться в соответствии с трудовым договором с распорядком учреждения. Однако, стоит ли быть столь категоричным?
Как известно, в предстоящем 2022 году у граждан РФ будет 247 календарных трудовых дней. Возьмем для примера идеалного аналитика ООО "Рога и Копыта" Василия, которому предстоит отработать без опозданий 247 из 247 дней в будущем году (бедолага). Предположим, что в ООО "Рога и Копыта" существует еще некий разработчик Валера, который не столь пунктуален. Так сколько раз в году может опозданить на работу Валера, чтобы начальство не отругало?
Если свести эту задачу к матстату и A/B тестированию, то нам предстоит проверить утверждение: Отличается ли явка на работу аналитика Василия от явки разработчика Валеры? Если точнее, при какой явке Валеры на работу различие с Василием будет статистически значимым?
Классический A/B тест, который мы решим с помощью Python
import statsmodels.stats.proportion as proportion
chi2stat, pval, table = proportion.proportions_chisquare([244,247],247)
pvalКак вы видите, мы просто захардкодили кол-во календарных рабочих дней, а также предположили навскидку, что Валера придёт вовремя 244 из 247 дней, то есть опоздает всего 3 раза.
Мы получили значение pvalue равное 0.08232820755666564 , что больше общепринятого порога a = 0,05, а значит мы отвергаем гипотезу ,что различие в явке статистически значимо. Значит 3 раза Валере опоздать, в целом, можно!
import statsmodels.stats.proportion as proportion
chi2stat, pval, table = proportion.proportions_chisquare([243,247],247)
pvalПредположив, что Валера опоздает 4 раза, мы получили pvalue равное 0.04462770779632275. Это меньше a=0,05, так что опоздывать 4 раза Валере уже никак нельзя!
Кстати, проделать эти и другие несложные манипуляции, связанные с A/B тестированием также можно в известном калькуляторе Эвана Миллера.
Надеюсь, мои нехитрые размышления помогут в будущем всем тем, кому предстоит оправдываться перед руководством за опоздания в наступающем году! Не опаздывай, Валера!