Comments 57
Поэтому я использую медиану.
Вот вам пример процесса, в котором медиана скорее всего будет большую часть времени врать.
Рассмотрим измерение уровня топлива в баке движущегося автомобиля.
Примерно по центру бака вставлен тонкий цилиндр с дырками, который измеряет уровень топлива в этом цилиндре-столбе (обычно путём измерения ёмкости, но раньше могли и поплавок засунуть).
Так вот, топливо в движении болтыхается туда-сюда, и большую часть времени у нас наблюдается горб у одной из стенок бака. В центре, соответственно, уровень оказывается систематически ниже среднего. Медиана как раз его и покажет. Обычное среднее будет работать намного лучше.
Но в реальности, конечно, используются фильтр Калмана или что-то подобное.
При чём здесь это? Статья про другое.
Я так и не понял, вроде одно и то же.
--С вероятностью 95% истинное значение находится внутри этого интервала.
--Если мы повторим эксперимент много раз, 95% таких интервалов накроют истинное значение.
Да, у нас с вероятностью 95% искомое значение в пределах этого интервала. Да, может быть искомое (реальное) значение и не в этих границах (если бы знали точно, у нас была бы вероятность 100%) - на это и выделяют 5% (а мы можем критерий сделать более жестким, 1 к 1000, тоже можно)
А что значит "Вы не можете быть уверены." Вообще по теории вероятности. Верить никому нельзя. Мы не можем (физически) прощупать всю генеральную совокупность (в тех случаях, когда можем, нам не нужна мат-статистика со всей этой "выборочными средними" и прочими штуками)
А бизнесу, бизнес интересует "да" или "Нет", а не ваши (наши) теории вероятностей и мужик, который пиво тестировал :) (но подписался студентом) :)
(я больше скажу, 5% на ошибку это еще очень хорошо, на самом деле в бизнесе приходится принимать решения с гораздо более сложной картиной и неизвестным количеством неизвестных параметров)
Истинное значение либо находится внутри интервала (вероятность равна 1), либо нет (вероятность равна 0). 95 процентов там быть не может, потому что истинное значение не является случайной величиной.. Об этом статья.
Это понятно, что или находится или нет
Но Вы статистику сводите к анекдоту про вероятность встретить динозавра. Там тоже или встречу или нет :)
Если оно находится (мы об это откуда то знаем), то тогда речь не про вероятность. Если мы знаем, нам не нужна теорвер
Вероятность события измеряется в процентах. Например, завтра пойдет дождь с вероятностью 47 процентов. Это значит, завтра он или пойдет или нет. Но мы пока не знаем. Поэтому у нас есть оценка вероятности. Когда случится "завтра", мы будем знать точно пошел он или не пошёл . И тут уже не будет никакой вероятности. Тут факт будет
Рассуждения вроде понятны, но не понятно о какой "фундаментальной ошибке" вы говорите во фразе:
С вероятностью 95% истинный средний чек находится между 100 и 120 рублями.
Если я скажу эту фразу менеджеру то он поймет ее так:
вариант 1. "если у нас будет много много чеков, то примерно 95% из них будут от 100 до 120 р".
вариант 2. "если я ткну в таблице случайный чек, то с вероятностью 95% он будет от 100 до 120 р".
Поясните где тут фундаментальная ошибка?
Из статьи понятно, что есть мат. дисциплина в которой именно так сказать будет некорректно так как в ней приняты к употреблению другие термины. Тут вопросов нет.
Ну, а в геометрии, например, слово "секунда" имеет не то же значение, что в управлении проектами. Но если менеджер спросит меня сколько времени автомат выдает чек то рассуждать об углах будет довольно странно, даже если в автомате выдачи чеков геометрия занимает важное место...
Понятно, что это все выглядит бессмысленной придиркой, вы недаром изложили материал иронично и понятно. Но даже в шутке если вы выдвигаете какое-то утверждение то хочется понять почему это так. По вашей статье я так и не понял почему ваш способ описывать реальность лучше чем у менеджера.
Тут у вас все варианты (жирные) не правильные. Вопрос того к чему нужно применять вероятность. 95%, не в том, 95 из 100 чеков будут от 100 до 120. А в том (то, что я скажу будет ближе к правде, но всё ещё с парой оговорок) что если средний чек был бы не от 100 до 120, а меньше 100 или больше 120, то вероятность получить такой набор разных сумм (чеков), по которым мы сделали вывод, что средний чек от 100 до 120 была бы меньше 5%.
Т.е. если, например, половина наших чеков за пределами диапазона 100-120, но мы берем достаточно большие выборки и усредняя в 95% случаев получаем их СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ в диапазоне 100-120 - то мы можем сказать что:
С вероятностью 95% истинный средний чек находится между 100 и 120 рублями.
Так?
Если да - то я вас поздравляю, вы настолько запутанно объяснили эту несложную концепцию, что она по статье совершенно не считывается :)
Нет, это неправильно. Правильно будет так:
«Если мы возьмем 100 разных выборок и для каждой посчитаем свой диапазон по формуле доверительного интервала (например, у первой 98-118, у второй 102-122...), то в 95 из 100 случаев истинное среднее всей генеральной совокупности окажется внутри этих посчитанных диапазонов».
В общем да, нужно раскрыть этот аспект тоже.
А не проще ли представить это иначе: результаты измерений - это случайные величины, подчиняющиеся какому-то распределению? И доверительные интервалы - это эмпирические оценки параметров этого распределения. Недаром же сейчас вместо понятия "погрешность" всё чаще используют понятие "неопределённость".
А в чем принципиальная разница между событием, которое произойдет с некоторой вероятностью в будущем, и событием, которое может быть произошло (или не произошло) в прошлом, но у нас нет о нем полной информации?
Если вы спросили "какова вероятность?", то ответ не может быть "либо да, либо нет". Не знаю, какого упоротого математика вы нашли, который так считает, но точно не того, кто знает, что такое вероятность.
При помощи A/B тестов и прочих статистических трюков мы строим некоторую модель мира, в которой допускаем, что априорно константные значения на самом деле имеют вероятностную природу. В этом контексте рассуждать про то, что заданная величина находится в доверительном интервале с вероятностью 95% - корректно.
Рассуждения из статьи - это рассуждения с точки зрения демона Максвелла: если автомобиль проедет по неоднородному болоту в одном направлении, он же точно окажется а точке X, а не в каком-то вероятностном распределении точек. Увы, инструменты для создания демона Максвелла нам недоступны - приходится всем, даже константным неизвестным значениям давать апостериорную оценку вероятности.
Да, с точки зрения бизнеса разницы нет. А если говорить про случаи, когда выборка AB-тестирования маленькая, с точки зрения бизнеса это просто всё равно не надежно.
Так, а величина выборки, что, не учитывается? Это же важная информация.
А если говорить про случаи, когда выборка AB-тестирования маленькая
То, наверно, лучше её увеличить. Всё равно иначе выбросы будут.
Впервые услышал о вас в 2017 году в тогда еще слаке ODS. Учился на 3-м потоке ML Course Open, закончил в топ-30 рейтинга, до сих пор считаю ту программу одной из лучших инвестиций своего времени и рекомендую для знакомства с ML наравне с материалами Анатолия Карпова по статистике.
Спустя 8 лет уже не смогу самостоятельно написать градиентный бустинг на питоне (да и не надо мне это), но корректную интерпретацию p-value запомнил хорошо. И не раз применял.
Всего хорошего и удачи вам.
Реальный бизнес за пределами МФТИ и ВШЭ не интересует математическая безупречность, а только лишь ответ на заданный вопрос. Который (ответ) "что лбом по пню, что пнем по лбу" звучит одинаково. И важно именно это, а не то, с каким переподвыпердом (или без него) ответ озвучен
Поэтому там немного иронии есть в конце статьи.
Как человек из бизнеса с вами полностью согласен. Но в защиту данной статьи скажу, что не так много людей могут посоветовать правильный способ математического мышления, в задачах связанных с математикой. А про казуистику в сказанных словах и про политически правильные формулировки оставим же упражнения нашим юристам, пусть математики топят за безупречность в своем реально не легком деле
Теоретики в башнях из слоновой кости могут быть для себя сколь угодно безупречными, но "древо жизни зеленеет" и требует не безупречный, а точный ответ на поставленный вопрос. Простейший пример — проверьте на не "первом встречном на улице", но обычном сапиенсе, академическое определение p-value
P‑value (p‑значение, уровень значимости, p‑критерий) — это вероятность получить для данной вероятностной модели такое же или более экстремальное значение статистики (среднего, медианы и др.), как наблюдаемое в выборке, — при условии, что нулевая гипотеза (H₀) верна.
и живое, не такое строгое, но тоже формально корректное
P‑value показывает, насколько необычно выглядят ваши данные — если предположить, что предполагаемый/наблюдаемый эффект случаен.
Если p‑value маленький (обычно ≤ 0,05), это сигнал: эффект вряд ли объясняется одной случайностью — стоит присмотреться.
Если p‑value большой (> 0,05), данных недостаточно, чтобы уверенно говорить о неслучайности эффекта.
А потом методом опроса без пристрастия проверьте, какой из вариантов оставил в голове слушателя чуть больше, чем белый шум.
Безупречность ради безупречности — троцкизм, людей же (здоровых) интересует результат, а не процесс
Именно последнее утверждение в общем-то и вызвало мою изначальную реплику
С вероятностью 95% истинный средний чек находится между 100 и 120 рублями.
А реальные люди (а не соломенные чучелки, которые так приятно побеждать) реально так говорят, ну в формулировке "истинный средний чек/значение/размер/объём/etc"? Понятно, что я в индустрии не так уж долго, 16 лет, для реальных аксакалов это миг, но такой формулировки не встречал ни разу.
В реальности аналитики говорят на языке бизнеса, а бизнес интересует конкретный ответ, а не ответ из анекдота про Шерлока Холмса и воздушный шар. Тут пост выглядит как учебник на тему "как не давать конкретный ответ, а придраться к формулировкам". С этой точки зрения - отличный пятничный пост, но почему-то в воскресенье)
А реальные люди (а не соломенные чучелки, которые так приятно побеждать) реально так говорят, ну в формулировке "истинный средний чек/значение/размер/объём/etc"?
Академические матстатистики (к которым, судя по подписи, совсем не слегка относится и автор статьи) говорят, и могут и еще суровее: "истинное среднее..." это нормальный профессиональный термин (у них).
А те, кто "в индустрии", говорят на языке, выполняющем основную функцию языка как "средства передачи информации", где важна не математическая безупречность, а скорость, полнота и достоверность этой самой передачи. Оттого и языковой корпус принципиально разный.
Вся проблема в термине "истинное среднее значение". Хотя я из статьи так и не понял что это значит
А с какого перепугу параметр фиксирован? Мы каждый раз измеряем близкое, но новое состояние системы.
Физически, рассуждения автора бессмысленны.
Математически доверительные интервалы строятся из предположения, что параметр не меняется, выборка каждый раз берется из одного и того же распределения.
Если вы хотите учесть изменчивость параметров, модель нужно будет усложнить.
И если мы считаем, что значение параметра изменилось, то надо иметь в виду, что используемые формулы расчета интервалов уже неверны.
Тут другое. Это сутуация, когда существует заведомо детерминированное и конечное множество значений, но нам доступна только его часть.
Мы разработали метод, который в 95% случаев дает правильный ответ по расчёту среднего чека? Заглавный пример-то про чеки был, соответственно вывод применяем к нему и получается ерунда. Понятнее не стало. Либо и то и другое ошибка и надо искать более корректную формулировку, либо вообще не стоит заморачиваться. Если собеседник в принципе понимает что такое вероятность сама по себе, то он поймет о чем речь и тонкости формулировки роли не сыграют. Если не понимает, тогда действительно стоит пояснить, что если 100 раз посчитать, тогда будет 95% верных ответов, что может быть и ошибка. Но вероятности проходят в школе, я не могу представить себе человека, который не понимает что это такое.
Ошибка это то, что приводит к неправильному результату. Если ошибку допускать, а к неверному результату она не приводит, то это не ошибка.
Оффтоп, но, господи, как же ужасен это нейросетевой язык с эффектом зловещей долины. Бесконечное использование аналогий, метафор, и особых конструкций с отрицанием вместо обычных объяснений с использованием союза "потому что" (например, когда оно генерирует примерно такую конструкцию: "это не про что-то, это [тут оче длинное тире] про то-то"). Затем, эти рандомные болды, которые выделяют жирным слова, которые ничем не лучше и не хуже других, и как бы немного сбивая с толку. И, наконец, эти нелепые эмодзи, будто я без яркой зеленой фигни не пойму слово "ДА" капсом. Я и близко не лингвист какой-то, но его язык выглядит, как какая-то некорректная адаптация или излишнее применение приемов популярных сегодня книжек, в которых почему-то постулируют, что в современном мире надо общаться короткими тезисами, иначе вас не будут слушать. Вероятно, для всяких БЯМ, где каждый токен стоит ресурсов, это вопрос принципа работы, не спорю, но лично для меня наоборот - именно это стало причиной не дочитывать статью, потому что такие литературные приемы и сокращения часто приводят к неточностям. Про смысловое содержание самой статьи я, естественно, ничего плохого не говорю (раз я ее дропнул), просто маленькая прокламация в пользу языка. Просто меня малость настораживает наполнение интернета абсолютно одинаковыми по какой-то противоестественной нейростилистике статьями, а когда я уже сам начинаю так разговаривать, то пугает...
" будто я без яркой зеленой фигни не пойму слово "ДА" капсом "
Это вывод программы, написанной на Питоне. Причем здесь нейросеть?
Сейчас посмотрел лучше, похоже вот это было не совсем удачно.

На первый взгляд казалось красиво.
Но это вообще не ИИ придумал, а как раз я сам это сделал.
Но вопрос остается, как сделать это хорошо.
Этот нейростиль заключается в применении разных приемов, которые описаны в книгах о том, как писать интересный текст. Например, есть книга "Хит на Хабр", там написано, что для того, чтобы статья была хитом Хабра, нужно вот именно всё это описанное применять.
Насчет неуместности - так люди тоже их часто неуместно применяют, не только ИИ.
Так что это вопрос, сколько текстов в интернете с "нейростилем" написаны нейронками, а сколько люди давно пишут сами. Тем более что, по-моему, текстов с избытком визуального шума в интернете было полным полно задолго до появления LLM.
Вот смотрите, например https://netology.ru/programs/best_sales . Такого ведь полно было до всяких нейросетей. Это делают профессиональные дизайнеры за деньги.
Ну нейросетка сейчас делает почти точно также, в принципе, если ее дизайн попросить.
Мало что понял, так что приведу свою аналогию. Допустим проводим мы опыт, и пытаемся что-то измерить. Получается, "ложная интуиция" - это когда мы считаем, что весь рандом идёт от самого процесса, а наша линейка абсолютно точная. Тогда "суровая реальность", на которой настаивает автор - это про то, что процесс (а значит и измеряемая величина) детерминирован, и рандом идёт только от линейки. Линейка - выборка, измеряемая величина - то, что пытаемся по ней оценить.
Если в целом все так, то, честно говоря, не понимаю, почему первое считается ложью, а второе истиной. Взять тот же пример с истинным ростом всех людей на Земле. Да, это одно число. Да, если ОСТАНОВИТЬ время и всех измерить, то получим вполне конкретное значение. Но ведь проблема как раз в том, что не можем. Не можем остановить время, и не можем всех измерить. Да даже пока собираем выборку, на Земле кто-то родился, кто-умер, кто-то вырос, кто-то усох. В итоге тот самый истинный рост, вполне единственный и конкретный в моменте, в динамике постоянно скачет непредсказуемым образом. Так что мне кажется, колышки кольцеброса в ещё более "суровой реальности" тоже движутся. Как и всё в этом мире, в том числе моя крыша.
Короче, и то, и другое имеет право на существование. И вообще, главное чтобы все работало и приносило пользу, а тебя понимали.
Как я понимаю, доверительный интервал означает, что если мы наберём ещё "сто тыщь мильёнов" выборок из генеральной совокупности и проведём те же самые вычисления, то не более 5% выборок выдадут интервалы, в которые не попадёт центр нашего доверительного интервала. Что говорит о качестве оценки, потому что доверительные интервала для разных выборок будут всё таки "заякорены" вокруг истинного значения параметра и поэтому не будут слишком далеко друг от друга.
Понятно солнце , ну да несколько они пока дикие какие-то
Вероятность — это мера возможности, это наш инструмент принятия решения.
Мы не знаем "да" или "нет", знали бы — не требовалось бы принимать решение. Но мы не знаем и должны принять решение, основываясь хотя бы на том, что знаем. Поэтому используем придуманными до нас умными людьми инструментами, пытаясь максимизировать пользу и минимизировать вред.
Тот случай, когда можно сказать автору спасибо за то, что он в самом начале статьи объясняет, что в статье написан бред, и что он понятия не имеет о том, что такое вероятность.
Пример .. сомнительный.
Вопрос не будет стоять, какой у нас уже сейчас средний чек - это можно взять и посчитать без доверительных интервалов.
Вопрос будет стоять, какой у нас ожидаемый средний чек (Макс/мин) в горизонте Х лет.
И тогда исходный ответ был вполне корректен.
В чем фундаментальное отличие теории вероятности от статистики?
Вероятность оперирует бесконечным числом в выборке, а статистика - конечным.
Статистика более приближена к повседневной практике.
И ,по правде говоря, мы не знаем истинные значения, но можем построить модель поведения этих, интересующих нас, значений и оценить, по выборкам наблюдения, эти параметры модели.
Или если учесть оба замечания выше, то что вы скажете на такой пример, что числа границы 120 и 100 были оценены так:
- 120 +10-10
- 100 +9-8
и эта неопределенность следует из какой-то выборки. А если неопределенность записать в виде 3 сигма, а не 1, как часто пишут, то получим (для примера) 120 +30-30 и 100 +27-24. И где лежит истинное, надо уже брать границы шире.
Здесь границы 120 и 100 - случайные величины и их доверительный интервал надо так же приводить. Что рисунок со 100 выборками и показал.
Написанное в статье можно еще переформулировать так (взял из комментариев в вк)
Правильнее сказать: "мы нашли АЛГОРИТМ, который строит интервалы, содержащие истинное значение для 95% случайных выборок, удовлетворяющих предпосылкам алгоритма".
И тут не очень понятно, в чем смысл "оценки границ". Если вы сделаете границы шире, то доля выборок будет больше, если уже - меньше.
Уже захотелось сменить плюс на минус посту, потому что минимум второй, если не третий раз вижу его в "голосе свыше" в разных вариация. Точно пропадал, сейчас появился вновь.
@moderator это точно не злоупотребление фичей?
Там написано в описании к фиче
Писать можно что угодно в рамках разумного.
Автор занимает 1 место в списке авторов и поэтому фича ему доступна. Никаких нарушений тут нет. (Хотя даже мы стараемся не злоупотреблять Голосом свыше.)
Тут просто немного до 50 лайков не хватает, три раза подряд вывесил. Чуть-чуть помогло.
Лайки нужны для подключения монетизации блога (программа поддержки авторов)

Короче, для доверительного интервала существует свой доверительный интервал.... Вероятность вероятности и вот это вот всё, что мы знаем, но дополнительных это нам не приносит.
Мозг человеческий для статистики приспособлен ужасно. Канеман еще писал об этом, и он сам будучи преподом по статистики делал опыты на критически малой выборке, и осознал это только потом.
Эмоция, казуальность. Вот основа большинства.
И еще из книги Канемана. Вероятность меньше X мозг отбрасывает. Обычно это 1-5 процентов. То есть есть что-то по типу: "точно да", "может быть", "точно нет".
Ну и вдогонку на другу тему. Получается если мы можем ошибиться с вероятностью X. Нужно посчитать мат ожидание: высчитать потенциальные потери при ошибке * X + потенциальная выхода * (1-X)
А что Вы думаете относительно тройки Колмогорова?
Вероятность 0 или 1. (Либо да, либо нет) - это шедевр
Это как определение функции f(x), где f(x) может принять два значения для одного х
Иллюзия 95%: гайд по самой частой элементарной ошибке в Data Science