В свое время у меня были проекты с двумя подсистемами ('Presentation' и 'Controller Presentation'), в которых я отдельно выделял саму форму (со всеми ее интерактивными методами работы кнопочек, полей ввода, переключателей....) и бизнес- логику ее работы. Не вижу никакой сложности сделать это самостоятельно. Со временем выпилил это деление, потому что у меня примитивный интерфейс, но это уже моя специфика.
Это не доказательство. Половина больших регионов - тоже разные по размеру. Какая разница между самым большим и маленьким среди большой половины?
К сожалению, подобного анализа (только для крупных регионов) я выполнить уже не могу: точек осталось и так мало, поэтому ошибка расчета регрессионной прямой будет очень велика. В этом и заключается основная проблема исследователя: с помощью статистики он может доказать то или иное утверждение лишь до определенной точности, всегда ограничиваясь определенным уровнем статистической значимости.
И мне непонятно почему бы не посчитать с весом ВСЕ регионы
Это описано в UPDATE III: среднее значение очень неробастная метрика (т.е. небольшие изменения в исходных данных приводят к большим отклонениям в среднем). В итоге легко могут получится несоотвествующие действительности цифры, и меня будут носом тыкать в эти странные цифры со словами: "вот как на самом деле правильно!". А это всего- навсего естественная ошибка, заложенная в механизм расчета среднего. Это также неправильно, как эстраполировать прямую к значениям 0 и 1: алгоритм регрессии расчитал наклон линии с некоторой ошибкой, которая при подобной экстраполяции кратно увеличится в размерах (что видно по расширяющимся синим областям на краях графиках) и будет содержать непредсказуемые значения, которые ни о чем не говорят.
Если вы хотите регионам приписать веса, то более населенным регионам достанутся большие веса, и наша прямая предположительно должна сдвинуться в их сторону. Я показал, что если строить график ТОЛЬКО исходя из регионов с большой численностью населения, то мы получим тот же самый график. Т.е. никаких значимых сдвижет регрессионной прямой в сторону больших регионов не будет даже в самом предельном случае, когда крупные регионы получает вес 1, а малочисленные 0. Все остальные виды взвешения дадут регрессионую прямую лежащую между двумя этими вариантами. Т.е. результата от взвешивания нет никакого.
Доказательством линейной зависимости я совершенно не занимался. Повторюсь, что для подобных супер- точностей у нас нет реальных возможностей. Все что мы можем сказать: растет как по теории- хорошо, нет- значит теория не верна. Прямая в данном случае всего- лишь показывает наклон зависимости, на все остальное в этой прямой обращать внимание не стоит.
Мы уже выяснили, что кривая выходит примерно из точки (0; 0.8) и что отличать эту кривую от прямой нет никакого смысла.
Применение веса для точек при апроксимации - хороший способ.
Я уже на практике показал, что веса не влияют на результат. Повторяю свое предыдущее сообщение:
Пожалуйста, посмотрите раздел "UPDATE III: Корректность усреднения по регионам". Я добавил логику сравнения с самыми крупными регионами страны, что должно снять ваш вопрос.
Я писал, что на графиках надо смотреть ТОЛЬКО на наклон прямой. Этот наклон везде отлично виден (также приведены формулы, которые задают его численное значение). Поэтому никаких дополнительных модификаций графиков не требуется.
У нас сильно зашумленные данные, поэтому супер точные оценки в любом случае не получатся. Я в публикации писал, что единственное, что представляет интерес- наклон регрессионной прямой, а на графики надо смотреть всего лишь как на качественные оценки, и если хотя бы знак наклона прямой совпадает с теоретическим, то радоваться, а если нет- огорчаться.
Поэтому какой бы закон не был реальным, в нашем случае это совершенно не важно.
И не даёт мне покоя ещё апроксимация без учёта веса к каждой точке (региону)
Пожалуйста, посмотрите раздел "UPDATE III: Корректность усреднения по регионам". Я добавил логику сравнения с самыми крупными регионами страны, что должно снять ваш вопрос.
Надо добавить ещё три точки - общая смертности от доли невкационнированых - за октябрь, ноябрь и декабрь
Считать неприведенную общую смертность по отдельным месяцам не имеет смысла, потому что люди умирают не равномерно по месяцам: есть месяцы где год от года смертность выше, а есть где ниже.
я расписал как это все считается исключительно по практическим данным с графика. Посмотрите еще раз. А данные вы можете взять откуда сочтете нужным
Где взять этот чудесный график? И зачем тогда нужен весь ваш расчет, если уже есть этот чудесный график? Надо сравнивать теорию с практикой, а не выводить теорию из на практике полученного графика.
p.s. Заканчиваю с вами беседу, поскольку вы опять троллите тем, что противоречит здравому смыслу.
можете считать, что это вероятности заболеть и умереть в конкретном месте в конкретный временной период
Как тогда ее расчитать, чтобы сравнивать с данными полученными на практике? Теоретически ввести можно все что угодно, вопрос насколько все эти введенные понятия достижимы.
Мы эти данные берем из графика, который получаем примерно также как и вы.
Я брал исходные данные из официальных источников. Если вы данные берете из ЧУЖОГО непроверенного графика, а не из официальных источников, то ваш результат будет зависеть от ЧУЖИХ непроверенных данных. Какой смысл делать компиляцию непроверенных данных? Вы так и не поняли мой пример про одеяло с нарисованными овечками, и готовы дальше разносить по инету непонятно кем сделанные вбросы.
p.s. Пожалуйста, продолжайте начатую дискуссию, не захламляйте обсуждение новыми темами.
Во-первых, нужен не полугодовалый расчёт, а помесячный за последние полгода. У вас за последний квартал.
Получить отчеты за последние полгода достаточно просто: я привел код на Github, и все что нужно сделать- расширить список месяцев переданных в анализатор (конечно, если вы скачаете файлы данных для нужной вам страны и укажите к ним ваши пути).
Одна точка - один месяц. Надо последние полгода, значит 6 точек. Апроксимировать не надо, тендецию и так будет видно.
Подобный отчет я также написал (и он также представлен на Github в файле ExcessMortality.py). Единственное отличие- он строит график отдельно для каждого региона из 10 самых крупных регионов России (т.е. рисует 10 отчетов). Я его не описывал в работе, поскольку она (как мне показалось) получилась и так достаточно сложной.
Для вас я его немного переделал, чтобы он давал информацию в целом по России и размещаю ниже (в данном отчете избыточная смертность для обоих годов расчитывается относительно средней смертности за 2017, 2018 и 2019 года соответствующего месяца):
Я уважительно отношусь в чужому труду, поэтому сделаю исключение и прокомментирую ваши теоретические изыскания.
Будет значительно проще понимать ваши формулы, если вы будете использовать классические обозначения: вероятность буквой P, а размер выборки N.
Процесс распространения заболевания- это динамический процесс (уровень распространения эпидемии растет и падает со временем), поэтому не описывается формулами комбинаторики вытаскивания шаров из корзины (где на время никто не обращает внимание). Поэтому подход с введением вероятностей заболеть для вакцинированных и невакцинированных некорректен, а вслед за этим весь дальнейший анализ также некорректен.
Для расчета эффективности вакцинации вы используете количество умерших в разрезе вакцинного статуса. Напишите, пожалуйста, источник, из которого вы намерены получить эти первичные данные? Мою работу критиковать легко, но когда попробуйте "пройтись в моих сапогах", тогда все сразу станет понятно.
Вы зря убрали теоретический график. Он очень важен для понимания что вы расчитываете.
У меня никогда не было приведено теоретического графика, поэтому я ничего не убирал. Вы не можете сами представить прямую, соединяющую две точки?
Update II - некорректен. Зависимость смертности от степени вакцинирования - неизвестна.
Задача Update II в том, чтобы показать, что даже на низких уровнях вакциниции происходит снижение смертности. Полную функцию смертности я нигде не брался рассчитывать.
Поэтому для полноты анализа нужны укрупнённые данные. Т.е. во-первых, за полгода. Лучше по январь, чтобы убедится в наличии переломного момента в декабре (или опровергнуть)
Укрупненные данные наоборот скроют в себе все детали, выдав общий результат за более крупный период. За январь пока нет данных, мне тоже интересно сохранится ли эта тенденция в следующем месяце.
Во-вторых, отдельный график: помесячные точки в таких же координатах смертность/невакцинированные. В этом случае, ваши помесячные графики будут служить уточнением, показывать тенденцию влияния (или отсутствия влияния) уровня вакцинации в каждом месяце.
Чем ваш второй отдельный график будет отличаться от моих помесячных графиков (если они строятся в тех же координатах и с той же месячной периодичностью)?
Сегодня я исправил одну ошибку которая по вашему мнению мне была неудобна (сильно снизился теоретический положительный угол наклона регрессионной прямой). Я благодарен Vivo22 за то что мы с помощью конструктивного диалога выявили ошибку и приблизись к истине.
Пожалуйста, привидите пример моей агрессивной реакции на критику.
Скажите, а почему вы не продолжаете начатую вами же беседу, а троллите в куче чужих веток?
Согласен с вами, при полностью привитом населении смертность должна повторить значения 2019 года (которые составляют примерно 0.8 от смертности 2020 года). Сейчас поправлю публикацию.
Если 1-цу смертности ещё можно отождествить, то теоретический 0 сдвинется вверх на расчётной, потому что в расчётах смертность и по другим причинам. И сдвинется сильно, потому что избыточная смертность в 2020г, приписываемая ковиду, значительно меньше смертности 2019г. ПоРосСтату разница в смертности ~18%. Получается, теоретический 0 - это 0.8 расчётный. Соответственно, коэффициент прямой уже будет 0.2.
Я специально преобразовал формулу избыточной смертности к разнице между 1 и приведенной разнице смертностей двух годов. Эта формула более проста для понимания тем, что концентрирует внимание именно на разнице, которая могла возникнуть только из- за эффекта вакцинации (в оба года существовали как обычные причины смерти, так и Covid- 19).
Теоретический график, скорее всего, будет другой. При полной вакцинации всё-равно будет смертность от инфекции. Не у всех образуется иммунитет (цифру не скажу), и вакцина не гарантирует полную устойчивость к болезни.
Мы должны оценивать эффективность вакцинации не "в вакумме", а в реальной популяции, где в том числе присутствуют люди с проблемами со здоровьем. Это компексный показатель, и если он в целом не дает нужного эффекта, то тогда надо полагаться на другие методики снижения эпидемии.
В свое время у меня были проекты с двумя подсистемами ('Presentation' и 'Controller Presentation'), в которых я отдельно выделял саму форму (со всеми ее интерактивными методами работы кнопочек, полей ввода, переключателей....) и бизнес- логику ее работы. Не вижу никакой сложности сделать это самостоятельно. Со временем выпилил это деление, потому что у меня примитивный интерфейс, но это уже моя специфика.
К сожалению, подобного анализа (только для крупных регионов) я выполнить уже не могу: точек осталось и так мало, поэтому ошибка расчета регрессионной прямой будет очень велика. В этом и заключается основная проблема исследователя: с помощью статистики он может доказать то или иное утверждение лишь до определенной точности, всегда ограничиваясь определенным уровнем статистической значимости.
Это описано в UPDATE III: среднее значение очень неробастная метрика (т.е. небольшие изменения в исходных данных приводят к большим отклонениям в среднем). В итоге легко могут получится несоотвествующие действительности цифры, и меня будут носом тыкать в эти странные цифры со словами: "вот как на самом деле правильно!". А это всего- навсего естественная ошибка, заложенная в механизм расчета среднего.
Это также неправильно, как эстраполировать прямую к значениям 0 и 1: алгоритм регрессии расчитал наклон линии с некоторой ошибкой, которая при подобной экстраполяции кратно увеличится в размерах (что видно по расширяющимся синим областям на краях графиках) и будет содержать непредсказуемые значения, которые ни о чем не говорят.
Надо опираться только на робастные оценки.
Если вы хотите регионам приписать веса, то более населенным регионам достанутся большие веса, и наша прямая предположительно должна сдвинуться в их сторону.
Я показал, что если строить график ТОЛЬКО исходя из регионов с большой численностью населения, то мы получим тот же самый график. Т.е. никаких значимых сдвижет регрессионной прямой в сторону больших регионов не будет даже в самом предельном случае, когда крупные регионы получает вес 1, а малочисленные 0. Все остальные виды взвешения дадут регрессионую прямую лежащую между двумя этими вариантами. Т.е. результата от взвешивания нет никакого.
Доказательством линейной зависимости я совершенно не занимался. Повторюсь, что для подобных супер- точностей у нас нет реальных возможностей. Все что мы можем сказать: растет как по теории- хорошо, нет- значит теория не верна. Прямая в данном случае всего- лишь показывает наклон зависимости, на все остальное в этой прямой обращать внимание не стоит.
Нет, не запутался.
Там под спойлером находятся графики, построенные на половине самых крупных регионов. Это полностью доказывает, что никакие взвешивания не нужны.
Мы уже выяснили, что кривая выходит примерно из точки (0; 0.8) и что отличать эту кривую от прямой нет никакого смысла.
Я уже на практике показал, что веса не влияют на результат. Повторяю свое предыдущее сообщение:
Я писал, что на графиках надо смотреть ТОЛЬКО на наклон прямой. Этот наклон везде отлично виден (также приведены формулы, которые задают его численное значение). Поэтому никаких дополнительных модификаций графиков не требуется.
У нас сильно зашумленные данные, поэтому супер точные оценки в любом случае не получатся. Я в публикации писал, что единственное, что представляет интерес- наклон регрессионной прямой, а на графики надо смотреть всего лишь как на качественные оценки, и если хотя бы знак наклона прямой совпадает с теоретическим, то радоваться, а если нет- огорчаться.
Поэтому какой бы закон не был реальным, в нашем случае это совершенно не важно.
Пожалуйста, посмотрите раздел "UPDATE III: Корректность усреднения по регионам". Я добавил логику сравнения с самыми крупными регионами страны, что должно снять ваш вопрос.
Построил график со средней смертность за последние 4 года (столько данных у Росстата в оперативных данных):
Считать неприведенную общую смертность по отдельным месяцам не имеет смысла, потому что люди умирают не равномерно по месяцам: есть месяцы где год от года смертность выше, а есть где ниже.
Решил в дальнейшем вас полностью игнорировать. Теперь вас здесь не кормят.
Где взять этот чудесный график? И зачем тогда нужен весь ваш расчет, если уже есть этот чудесный график? Надо сравнивать теорию с практикой, а не выводить теорию из на практике полученного графика.
p.s. Заканчиваю с вами беседу, поскольку вы опять троллите тем, что противоречит здравому смыслу.
Как тогда ее расчитать, чтобы сравнивать с данными полученными на практике? Теоретически ввести можно все что угодно, вопрос насколько все эти введенные понятия достижимы.
Я брал исходные данные из официальных источников. Если вы данные берете из ЧУЖОГО непроверенного графика, а не из официальных источников, то ваш результат будет зависеть от ЧУЖИХ непроверенных данных. Какой смысл делать компиляцию непроверенных данных? Вы так и не поняли мой пример про одеяло с нарисованными овечками, и готовы дальше разносить по инету непонятно кем сделанные вбросы.
p.s. Пожалуйста, продолжайте начатую дискуссию, не захламляйте обсуждение новыми темами.
Получить отчеты за последние полгода достаточно просто: я привел код на Github, и все что нужно сделать- расширить список месяцев переданных в анализатор (конечно, если вы скачаете файлы данных для нужной вам страны и укажите к ним ваши пути).
Подобный отчет я также написал (и он также представлен на Github в файле ExcessMortality.py). Единственное отличие- он строит график отдельно для каждого региона из 10 самых крупных регионов России (т.е. рисует 10 отчетов). Я его не описывал в работе, поскольку она (как мне показалось) получилась и так достаточно сложной.
Для вас я его немного переделал, чтобы он давал информацию в целом по России и размещаю ниже (в данном отчете избыточная смертность для обоих годов расчитывается относительно средней смертности за 2017, 2018 и 2019 года соответствующего месяца):
Я уважительно отношусь в чужому труду, поэтому сделаю исключение и прокомментирую ваши теоретические изыскания.
Будет значительно проще понимать ваши формулы, если вы будете использовать классические обозначения: вероятность буквой P, а размер выборки N.
Процесс распространения заболевания- это динамический процесс (уровень распространения эпидемии растет и падает со временем), поэтому не описывается формулами комбинаторики вытаскивания шаров из корзины (где на время никто не обращает внимание). Поэтому подход с введением вероятностей заболеть для вакцинированных и невакцинированных некорректен, а вслед за этим весь дальнейший анализ также некорректен.
Для расчета эффективности вакцинации вы используете количество умерших в разрезе вакцинного статуса. Напишите, пожалуйста, источник, из которого вы намерены получить эти первичные данные? Мою работу критиковать легко, но когда попробуйте "пройтись в моих сапогах", тогда все сразу станет понятно.
У меня никогда не было приведено теоретического графика, поэтому я ничего не убирал. Вы не можете сами представить прямую, соединяющую две точки?
Задача Update II в том, чтобы показать, что даже на низких уровнях вакциниции происходит снижение смертности. Полную функцию смертности я нигде не брался рассчитывать.
Укрупненные данные наоборот скроют в себе все детали, выдав общий результат за более крупный период. За январь пока нет данных, мне тоже интересно сохранится ли эта тенденция в следующем месяце.
Чем ваш второй отдельный график будет отличаться от моих помесячных графиков (если они строятся в тех же координатах и с той же месячной периодичностью)?
Тогда зачем вы применяете неправильные термины, вводя людей в заблуждение?
Пожалуйста, укажите ошибку в моем подходе к сбору и обработке данных, и я поправлю публикацию так, чтобы она содержала только корректные выводы.
Сегодня я исправил одну ошибку которая по вашему мнению мне была неудобна (сильно снизился теоретический положительный угол наклона регрессионной прямой). Я благодарен Vivo22 за то что мы с помощью конструктивного диалога выявили ошибку и приблизись к истине.
Пожалуйста, привидите пример моей агрессивной реакции на критику.
Скажите, а почему вы не продолжаете начатую вами же беседу, а троллите в куче чужих веток?
Согласен с вами, при полностью привитом населении смертность должна повторить значения 2019 года (которые составляют примерно 0.8 от смертности 2020 года). Сейчас поправлю публикацию.
Спасибо за внимательность.
Я специально преобразовал формулу избыточной смертности к разнице между 1 и приведенной разнице смертностей двух годов. Эта формула более проста для понимания тем, что концентрирует внимание именно на разнице, которая могла возникнуть только из- за эффекта вакцинации (в оба года существовали как обычные причины смерти, так и Covid- 19).
Мы должны оценивать эффективность вакцинации не "в вакумме", а в реальной популяции, где в том числе присутствуют люди с проблемами со здоровьем. Это компексный показатель, и если он в целом не дает нужного эффекта, то тогда надо полагаться на другие методики снижения эпидемии.