Как стать автором
Обновить

Комментарии 21

Спасибо, интересно.
А насколько корректно включать в выборку заведомо «особенные» точки?
Будь в неделе 8 дней и 3 выходных, в первом примере понедельник оказался бы «обычной» точкой.

На примере получилось, конечно, весьма наглядно, но стоит ли в реальных оценках поступать так же?
Спасибо за вопрос.

В книге Д. Уилера говорится о тов, что как раз предлагаемый ими подход устойчив, даже к выборкам, содержащим особые точки. Именно для этого в качестве статистики рассеяния используется размах, а не среднеквадратичное отклонение.

Теперь, предположим, что в неделе 8 дней и 8-й день выходной, в который я ничего не делаю. То есть, в этот день среднее число выполненных задач и их групповой размах равен 0. Итоговое среднее средних станет меньше (в моем примере 4.29), а так же уменьшится и средний размах (новое значение 6.63). В итоге новыми контрольными пределами будут значения: 0,46 и 8,11. Итого видим, что в первом примере понедельник так и остался особой точкой.

Дайте знать, если где-то требуется объяснить подробнее.
В какую сторону статистику поверни — такие результаты и получатся. И это, если нет статистически достоверного отличия, все равно отличие может быть на самом деле.

Скажем, если сравнить одного муравья и одного слона по вашим критериям, то статистически они не отличаются (так всегда будет на выборке из двух объектов). Однако очевидно, что муравей и слон не являются флуктуациями в одной группе.
Немного не понял примера. По каким параметрам будем сравнивать муравья со слоном? Можно чуть больше подробностей, что бы я смог пояснить этот вопрос.
По весу, по длине хобота — по любому. Если взять ровно одного муравья и ровно одного слона, то достоверных различий вы не обнаружите :)
Ну мы же с вами понимаем, что использовать статистические методы для двух элементов не позволяют себе даже инженеры.

Но если вы возьмете двух муравьев и двух слонов, то они все окажутся за контрольными пределами.
Не знаю, насколько предложения ниже можно считать улучшениями, но

1. Я не включал бы выходные в выборку. (см комментарий выше).
2. Оперировал бы не размахом, а среднеквадратическим отклонением.
3. Для каждой группы доверительный интервал считал бы отдельно. Плюс-минус три сигма, например.

Что бы это дало? Например, если бы в понедельник на протяжении 10 недель я выполнял ровно по 10 задач, а в среднем за день — 9, то это позволило бы выделить понедельник. А если бы в понедельник выполнялось от 8 до 12 задач (в среднем по понедельникам — 10) при том же среднем 9 за все дни, то понедельник был бы обычным днём.
Спасибо за предложения, но:

1. В реальной жизни мы не знаем заранее, обусловлена ли та или иная точка особыми причинами. Поэтому включаем в выборку все точки. Что касается комментария выше, то по мнению авторов метода (что написано в книге, на которую есть ссылка в посте) при использовании в качестве статистики рассеяния размаха, метод становится более устойчивым (в инженерном понимании) к наличию особых точек в выборке
2. Если использовать среднеквадратичное отклонение в качестве статистики рассеяния, то мы искусственно расширим контрольные пределы и метод станет не устойчивым к наличию особых точек в выборке. В книге Д. Уилера (на которую я ссылаюсь в посте) целая глава посвящена тому, почему использование среднеквадратичного отклонения делает метод хуже.
3. Плюс-минус три сигма, как я понимаю, это пришло из 6-сигм. К сожалению, в 6-сигмах сигмой обозначают не среднеквадратичное отклонение, а инженерный коэффициент, рассчитываемый по формуле из поста.

Если бы я был точно уверен в том, что распределение числа выполненных задач является нормальным и в моей выборке число точек стремилось бы к бесконечности, то предложенный Вами метод был бы ничуть не хуже.
Включать дни, которые заведомо подчиняются другому распределению, конечно, некорректно.

Кстати, а чем карты Шухарта лучше обычной статистики? Как я понял это набор готовых рецептов для инженеров, у которых нет компьютеров для вычислений и которым не нужно особенно разбираться в том, что они делают.

Зачем пользоваться какими-то табличным коэффициентами, когда можно установить статистический пакет? Да и онлайн инструментов уже достаточно существует. Вот тут заметили, что «в какую сторону статистику поверни — такие результаты и получатся», это правда, но только в том случае, если человек следует готовым рецептам, а не разбирается в том, что происходит, поэтому прочесть учебник по статистике было бы не лишним.
Включать дни, которые заведомо подчиняются другому распределению, конечно, некорректно.
По мнению авторов метода Шухарта, Деминга и их последователей (Д. Уилера, Д. Чамберса, Л. Нельсона и прочих) включать заведомо особые точки как раз корректно. По крайней мере метод устойчив к их наличию в выборке. Строгого математического доказательства этому нет (и быть не может), но Д. Уилер показывал хорошую работоспособность метода путем численных экспериментов на выборках, подчиняющихся различным законам распределения.

Кстати, а чем карты Шухарта лучше обычной статистики?
Что вы называете обычной статистикой? Вы имеете ввиду какой-то конкретный статистический метод?

Зачем пользоваться какими-то табличным коэффициентами, когда можно установить статистический пакет?
В статистическом пакете с хорошей вероятностью будут те же табличные коэффициенты. Можно использовать и пакет. Они получены эмпирическим путем, если мне не изменяет память.

поэтому прочесть учебник по статистике было бы не лишним.
Согласен. А лучше даже два, плюс еще что-нибудь о статистических методах в управлении. Если, конечно, тема интересна.
Под обычной статистикой я имел в виду не конкретные статистические методы, а теорию проверки статистических гипотез: формулировку гипотезы и альтернативной гипотезы, построение статистики, вычисление ошибок первого и второго рода.

Мне как человеку получившему образование в области математической статистики, мягко говоря, странно читать о каких-то альтернативных методах решения известных проблем. Ответ на вопрос может ли быть отклонение объяснено случайностью или нет вообще говоря однозначен (при определённых предположениях). Слова «по мнению» и «последователи» тоже не внушают доверия. Поэтому мне хотелось бы понять каково взаимоотношение между описанной методологий и математической статистикой. На первый взгляд это трансформация некоторых известный фактов в готовые упрощённые рецепты.
Да, вы правы. Это и есть трансформация строгого математического аппарата статистики под конкретные инженерные задачи.

В этой трансформации основную роль играет понятие экономической целесообразности в ущерб математической строгости. Сам метод зародился в 30-х годах прошлого века в недрах Bell Laboratories, после чего Motorolla положила его в основу своих 6-sigma. Если интересны какие-либо детали с удовольствием о них расскажу.
воскресенЬе
Спасибо, исправил.
Вспомнилось старое «есть три вида лжи — ложь, наглая ложь и статистика». :)

Как говорится, под результат метод всегда можно подобрать (ни в коей мере не нападка на автора — статью было интересно прочитать для общего развития).

то мы искусственно расширим контрольные пределы
Суббота и воскресенье тоже расширяют «пределы».

P.S. Касаемо понедельников — на графике очевидно видно падение производительности за неделю, так что в понедельник, видимо, наиболее продуктивен из-за двухдневного отдыха и набора сил. :)
Суббота и воскресенье тоже расширяют «пределы».
Отнюдь… Попробуйте из таблицы исключить субботу и воскресенье и посмотрите как изменится средний размах. А расстояние между контрольными пределами как раз пропорционально среднему размаху. При исключении выходных дней, контрольные пределы наоборот станут шире. Соответственно, при возвращении выходных дней контрольные пределы сужаются.

P.S. Касаемо понедельников — на графике очевидно видно падение производительности за неделю
На самом деле в этом случае такое падение ничего и не значит, так как все значения находятся внутри контрольных пределов.

так что в понедельник, видимо, наиболее продуктивен из-за двухдневного отдыха и набора сил. :)
я тоже так думаю. В прошлом году это было не очень явно, так как в выходные я хоть ничего и не делал, на рабочую почту читал, мешая себе отдыхать.
Большое спасибо за доклад и за детальное описание математики!
Интересно, как правильно выбирать размер подгрупп?
Я попробовал метод для следующего ряда: число рабочих часов, приходящихся на человека в день (данные за 15 недель).
В зависимости от того, по какому диапазону я вычисляю средний размах (3, 4, 5 недель), данные довольно существенно различаются.

Вот мои эксперименты: dm9.ru/tmp/iter.xls
Спасибо за вопрос.

Здесь есть тонкий момент. Еслы вы группируете рабочие часы по людям, то размер группы у вас уже определен — это число людей.

Если человек у вас один, то надо использоватьскользящее окно для вычисление среднего и размаха (в вашей табличке нет скользящего окна). Кроме того, тут нужно использовать контрольную карту для индивидуальных значений. В этом случае для расчета контрольных пределов будет использоваться не магическая константа A_2, а магическая константа E_2 (в ГОСТе, на который я ссылаюсь в посте написано, как определять значения этих констант)

Я это быстро проделал на ваших данных и у меня получились верхние контрольные пределы:
Для скользящего окна в 3 точки: 9,69
Для скользящего окна в 4 точки: 9,76
Для скользящего окна в 5 точек: 9,87

Как видите, тут уже контрольная карта демонстрируют большую устойчивость по отношению к размеру скользящего окна.

Дайте знать, если требуются более подробные пояснения — с радостью объясню.
Большое спасибо за ответ.

Я получил те же самые числа. Действительно, для линейного списка значений стоит применять «карты индивидуальных значений».

Правда, вопрос всё равно есть: в ГОСТе, вроде бы, рекомендуют брать E_2 для n = 2 (п. 5.2, второй абзац). Именно 2, а не 3, 4 или 5. И значение для n = 2 довольно-таки далеко отстоит от n = 3/4/5. Посмотреть: dm9.ru/tmp/iter2.xls

Кстати, в предыдущем файле я брал не скользящее среднее, а группировал результаты. То есть, я брал не (1, 2), (2, 3) и (3, 4), а (1, 2) и (3, 4). Коэффициент при этом брал A_2. Насколько я понимаю, это именно то, что рекомендуют в п. 5.2 (в).

В целом, надо повнимательнее прочитать этот стандарт. Ещё раз спасибо за то, что дали повод задуматься над вопросом :)
Да, в изначальном варианте у вас действительно было не скользящее среднее, а группировка. Такой выбор данных был бы оправдан, если бы стояла задача найти аноомалные недели. В этом случае вопрос группировки был бы снят, так как в группе были бы все дни одной недели.

При построении карты индивидуальных значений действительно предпочтительно использовать скользящее среднее и скользящий размах для двух точек. Большее число точек я привел для примера, что бы показать относительную устойчивость контрольных границ по отношению к размеру скользящего окна.

Если интересна тема глубже, то мне очень понравилась книга Уилера и Чамберса, на которую я сослался в посте
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории