Комментарии 33
1. «квадрат разности всех членов генеральной совокупности и среднего значения» я бы заменил на «сумма квадратов разностей каждого члена генеральной совокупности и среднего значения».
Потому что «разность всех членов и среднего значения» звучит как «разность суммы всех членов и среднего значения», что не верно.
2. Линии нельзя возвести в квадрат. Можно возвести в квадрат «длины отрезков».
Угадайте, можно ли это сравнивать с использованием методов для нормального распределения:
(Пока что думаю про использование теста Колмогорова-Смирнова).
Сравнивать-то что? Тип распределения? Моменты?
Более того, я могу представить себе два устройства, у которых персентиль будет одинаковым, а mean различаться раз в 10.
Скорее вопрос в слове "достаточно". Методом "быстрой интерпретации", как ниже писали, и так понятно, что у bad есть некая статистически показательная причина задержек (даже 2), которая отсутствует для good. Также можно поставить вопросы к методике эксперимента. Сколько случайно выбранных по времени запусков каждой серии, на каких стендах. Визуально как будто по одному запуску было.
Кстати, у good эти (вторичные) пики тоже есть, просто они поджаты к основному.
Дополнительные пики первого я назвал "статистически непоказательными" :).
Для корректного сравнения разных устройств требуется исключить все факторы, кроме этой разницы (путём серий экспериментов в разных условиях).
Меня смущают качественные различия распределений. Сумма 3х аккуратных ситуаций у bad и каша у good. Есть уверенность, что это именно свойства дисков?
Дело в том, что сами устройства внутри — это компьютеры с фирмварью (все SSD такие), и разные алгоритмы дают разные результаты.
(Я как-то с одним вендором ругался, и они апдейтом фирмвари latency в 4 раза снизили).
>>KS нельзя использовать для подтверждения null-hypothesis
Как это нельзя. А для чего он нужен тогда? :) Или я не понял чего-то?
Про критерий — я бы в этой ситуации взял бы не плотность, а вероятность того, задержка не превысит некий нужный порог. Тут хорошие и показательные графики могут быть.
А что измерял?
Чем график рисовал? Похоже на seaborn, но цвета интереснее. Или это R?
Да, примерно так и есть. (Надо понимать, что это график вероятностей, а не хронологический график).
Рисовалось в R по советам коллег (я не сварщик, только маску нашёл).
graf <- function (path1, path2, name1, name2){
sample1=fromJSON(file=path1)
sample2=fromJSON(file=path2)
return(ggplot(rbind(data.frame(latency=sample1,category=name1), data.frame(latency=sample2, category=name2)), aes(latency, fill=category)) + geom_density(alpha=0.2) + scale_x_continuous(trans='log2'))
}
На вход нужен вывод и fio, который процессится вот так вот (берётся lat_log), силами ansible и шелла:
- name: Fetching results
shell: "shuf -n 10000 lat_clat.1.log|awk '{print $2}'|awk -F, '{print $1}'"
register: latency_log
- copy:
content: '{{ latency_log.stdout_lines|to_json|from_json|map("int")|list|to_json }}'
dest: '{{ latency_dest }}'
delegate_to: localhost
vars:
latency_dest: 'output/latency_{{ inventory_hostname }}.json'
Иногда вот просто сейчас нужен ответ, и нет времени на длинные теоретические разбирательства, а готовый способ дать быстрый ответ — есть. Да, он не гарантирует быть правильным (хотя и может таковым оказаться), а ещё он может оказаться совсем неправильным (не повезёт). Но такой ответ всё равно лучше чем ничего, особенно если риск его неверности вы держите в голове (но это не обязательно, если другого выхода у вас всё равно нет).
Это конечно не относится к написанию научных статей (там всегда много времени и не может быть реальной критической срочности).
Быстрый ответ можно дать и без стьюдента. "Вроде похожи". :) При достаточном количестве выборок можно ошибку среднего оценить, это тоже быстро..
И вообще это превращается не в научный метод, а в субъективное мнение эксперта
Если мы берем 5%, это значит результат каждого двадцатого исследования можно выкидывать в мусорку?
Если нет, то какой процент исследований в среднем даст неправильный результат при использовании значимости 5%? А 1%?
Чего мы, естественно, не знаем. Так что привязывать качество исследований к значимости не стоит.
Если мы тестируем, отличается ли подбрасывание монетки в Москве от подбрасывания в Париже
Выбираем значимость
Получаем 52/100 орлов в Москве, 49/100 в Париже
как тут могут быть равны дисперсии
А если не равны, то нельзя применять метод?
Люди читают ваше плохо сформулированное "к распределению, отличному от нормального, нельзя применять параметрические критерии анализа, вроде Стьюдента" и думают, что речь идёт про распределение самих выборок, даже если они большие. Хотя для t-критерия важно нормальное распределение выборочных средних.
Vsevo10d, исправьте, пожалуйста.
Как погрешность превращается в грех