Pull to refresh
4
0

Python, BigData, Analysis

Send message

В свое время у меня были проекты с двумя подсистемами ('Presentation' и 'Controller Presentation'), в которых я отдельно выделял саму форму (со всеми ее интерактивными методами работы кнопочек, полей ввода, переключателей....) и бизнес- логику ее работы. Не вижу никакой сложности сделать это самостоятельно. Со временем выпилил это деление, потому что у меня примитивный интерфейс, но это уже моя специфика.

Это не доказательство. Половина больших регионов - тоже разные по размеру. Какая разница между самым большим и маленьким среди большой половины?

К сожалению, подобного анализа (только для крупных регионов) я выполнить уже не могу: точек осталось и так мало, поэтому ошибка расчета регрессионной прямой будет очень велика. В этом и заключается основная проблема исследователя: с помощью статистики он может доказать то или иное утверждение лишь до определенной точности, всегда ограничиваясь определенным уровнем статистической значимости.

И мне непонятно почему бы не посчитать с весом ВСЕ регионы

Это описано в UPDATE III: среднее значение очень неробастная метрика (т.е. небольшие изменения в исходных данных приводят к большим отклонениям в среднем). В итоге легко могут получится несоотвествующие действительности цифры, и меня будут носом тыкать в эти странные цифры со словами: "вот как на самом деле правильно!". А это всего- навсего естественная ошибка, заложенная в механизм расчета среднего.
Это также неправильно, как эстраполировать прямую к значениям 0 и 1: алгоритм регрессии расчитал наклон линии с некоторой ошибкой, которая при подобной экстраполяции кратно увеличится в размерах (что видно по расширяющимся синим областям на краях графиках) и будет содержать непредсказуемые значения, которые ни о чем не говорят.

Надо опираться только на робастные оценки.

Не вижу доказательства.

Если вы хотите регионам приписать веса, то более населенным регионам достанутся большие веса, и наша прямая предположительно должна сдвинуться в их сторону.
Я показал, что если строить график ТОЛЬКО исходя из регионов с большой численностью населения, то мы получим тот же самый график. Т.е. никаких значимых сдвижет регрессионной прямой в сторону больших регионов не будет даже в самом предельном случае, когда крупные регионы получает вес 1, а малочисленные 0. Все остальные виды взвешения дадут регрессионую прямую лежащую между двумя этими вариантами. Т.е. результата от взвешивания нет никакого.

Доказательством линейной зависимости я совершенно не занимался. Повторюсь, что для подобных супер- точностей у нас нет реальных возможностей. Все что мы можем сказать: растет как по теории- хорошо, нет- значит теория не верна. Прямая в данном случае всего- лишь показывает наклон зависимости, на все остальное в этой прямой обращать внимание не стоит.

Запутались?

Нет, не запутался.

К сожалению, там только описательные слова.

Там под спойлером находятся графики, построенные на половине самых крупных регионов. Это полностью доказывает, что никакие взвешивания не нужны.

кривая выходит из точки (0;~0) и идёт в (1;1)

Мы уже выяснили, что кривая выходит примерно из точки (0; 0.8) и что отличать эту кривую от прямой нет никакого смысла.

Применение веса для точек при апроксимации - хороший способ.

Я уже на практике показал, что веса не влияют на результат. Повторяю свое предыдущее сообщение:

Пожалуйста, посмотрите раздел "UPDATE III: Корректность усреднения по регионам". Я добавил логику сравнения с самыми крупными регионами страны, что должно снять ваш вопрос.

Я писал, что на графиках надо смотреть ТОЛЬКО на наклон прямой. Этот наклон везде отлично виден (также приведены формулы, которые задают его численное значение). Поэтому никаких дополнительных модификаций графиков не требуется.

У нас сильно зашумленные данные, поэтому супер точные оценки в любом случае не получатся. Я в публикации писал, что единственное, что представляет интерес- наклон регрессионной прямой, а на графики надо смотреть всего лишь как на качественные оценки, и если хотя бы знак наклона прямой совпадает с теоретическим, то радоваться, а если нет- огорчаться.

Поэтому какой бы закон не был реальным, в нашем случае это совершенно не важно.

И не даёт мне покоя ещё апроксимация без учёта веса к каждой точке (региону)

Пожалуйста, посмотрите раздел "UPDATE III: Корректность усреднения по регионам". Я добавил логику сравнения с самыми крупными регионами страны, что должно снять ваш вопрос.

Построил график со средней смертность за последние 4 года (столько данных у Росстата в оперативных данных):

Надо добавить ещё три точки - общая смертности от доли невкационнированых - за октябрь, ноябрь и декабрь

Считать неприведенную общую смертность по отдельным месяцам не имеет смысла, потому что люди умирают не равномерно по месяцам: есть месяцы где год от года смертность выше, а есть где ниже.

Решил в дальнейшем вас полностью игнорировать. Теперь вас здесь не кормят.

я расписал как это все считается исключительно по практическим данным с графика. Посмотрите еще раз. А данные вы можете взять откуда сочтете нужным

Где взять этот чудесный график? И зачем тогда нужен весь ваш расчет, если уже есть этот чудесный график? Надо сравнивать теорию с практикой, а не выводить теорию из на практике полученного графика.

p.s. Заканчиваю с вами беседу, поскольку вы опять троллите тем, что противоречит здравому смыслу.

можете считать, что это вероятности заболеть и умереть в конкретном месте в конкретный временной период

Как тогда ее расчитать, чтобы сравнивать с данными полученными на практике? Теоретически ввести можно все что угодно, вопрос насколько все эти введенные понятия достижимы.

Мы эти данные берем из графика, который получаем примерно также как и вы.

Я брал исходные данные из официальных источников. Если вы данные берете из ЧУЖОГО непроверенного графика, а не из официальных источников, то ваш результат будет зависеть от ЧУЖИХ непроверенных данных. Какой смысл делать компиляцию непроверенных данных? Вы так и не поняли мой пример про одеяло с нарисованными овечками, и готовы дальше разносить по инету непонятно кем сделанные вбросы.

p.s. Пожалуйста, продолжайте начатую дискуссию, не захламляйте обсуждение новыми темами.

Во-первых, нужен не полугодовалый расчёт, а помесячный за последние полгода. У вас за последний квартал.

Получить отчеты за последние полгода достаточно просто: я привел код на Github, и все что нужно сделать- расширить список месяцев переданных в анализатор (конечно, если вы скачаете файлы данных для нужной вам страны и укажите к ним ваши пути).

Одна точка - один месяц. Надо последние полгода, значит 6 точек. Апроксимировать не надо, тендецию и так будет видно.

Подобный отчет я также написал (и он также представлен на Github в файле ExcessMortality.py). Единственное отличие- он строит график отдельно для каждого региона из 10 самых крупных регионов России (т.е. рисует 10 отчетов). Я его не описывал в работе, поскольку она (как мне показалось) получилась и так достаточно сложной.

Для вас я его немного переделал, чтобы он давал информацию в целом по России и размещаю ниже (в данном отчете избыточная смертность для обоих годов расчитывается относительно средней смертности за 2017, 2018 и 2019 года соответствующего месяца):

Я уважительно отношусь в чужому труду, поэтому сделаю исключение и прокомментирую ваши теоретические изыскания.

  • Будет значительно проще понимать ваши формулы, если вы будете использовать классические обозначения: вероятность буквой P, а размер выборки N.

  • Процесс распространения заболевания- это динамический процесс (уровень распространения эпидемии растет и падает со временем), поэтому не описывается формулами комбинаторики вытаскивания шаров из корзины (где на время никто не обращает внимание). Поэтому подход с введением вероятностей заболеть для вакцинированных и невакцинированных некорректен, а вслед за этим весь дальнейший анализ также некорректен.

  • Для расчета эффективности вакцинации вы используете количество умерших в разрезе вакцинного статуса. Напишите, пожалуйста, источник, из которого вы намерены получить эти первичные данные? Мою работу критиковать легко, но когда попробуйте "пройтись в моих сапогах", тогда все сразу станет понятно.

Вы зря убрали теоретический график. Он очень важен для понимания что вы расчитываете.

У меня никогда не было приведено теоретического графика, поэтому я ничего не убирал. Вы не можете сами представить прямую, соединяющую две точки?

Update II - некорректен. Зависимость смертности от степени вакцинирования - неизвестна.

Задача Update II в том, чтобы показать, что даже на низких уровнях вакциниции происходит снижение смертности. Полную функцию смертности я нигде не брался рассчитывать.

Поэтому для полноты анализа нужны укрупнённые данные. Т.е. во-первых, за полгода. Лучше по январь, чтобы убедится в наличии переломного момента в декабре (или опровергнуть)

Укрупненные данные наоборот скроют в себе все детали, выдав общий результат за более крупный период. За январь пока нет данных, мне тоже интересно сохранится ли эта тенденция в следующем месяце.

Во-вторых, отдельный график: помесячные точки в таких же координатах смертность/невакцинированные. В этом случае, ваши помесячные графики будут служить уточнением, показывать тенденцию влияния (или отсутствия влияния) уровня вакцинации в каждом месяце.

Чем ваш второй отдельный график будет отличаться от моих помесячных графиков (если они строятся в тех же координатах и с той же месячной периодичностью)?

Тогда зачем вы применяете неправильные термины, вводя людей в заблуждение?

Пожалуйста, укажите ошибку в моем подходе к сбору и обработке данных, и я поправлю публикацию так, чтобы она содержала только корректные выводы.

Сегодня я исправил одну ошибку которая по вашему мнению мне была неудобна (сильно снизился теоретический положительный угол наклона регрессионной прямой). Я благодарен Vivo22 за то что мы с помощью конструктивного диалога выявили ошибку и приблизись к истине.

Пожалуйста, привидите пример моей агрессивной реакции на критику.

Скажите, а почему вы не продолжаете начатую вами же беседу, а троллите в куче чужих веток?

Согласен с вами, при полностью привитом населении смертность должна повторить значения 2019 года (которые составляют примерно 0.8 от смертности 2020 года). Сейчас поправлю публикацию.

Спасибо за внимательность.

Если 1-цу смертности ещё можно отождествить, то теоретический 0
сдвинется вверх на расчётной, потому что в расчётах смертность и по
другим причинам. И сдвинется сильно, потому что избыточная смертность в 2020г, приписываемая ковиду, значительно меньше смертности 2019г. ПоРосСтату разница в смертности ~18%. Получается, теоретический 0 - это 0.8 расчётный. Соответственно, коэффициент прямой уже будет 0.2.

Я специально преобразовал формулу избыточной смертности к разнице между 1 и приведенной разнице смертностей двух годов. Эта формула более проста для понимания тем, что концентрирует внимание именно на разнице, которая могла возникнуть только из- за эффекта вакцинации (в оба года существовали как обычные причины смерти, так и Covid- 19).

Теоретический график, скорее всего, будет другой. При полной вакцинации всё-равно будет смертность от инфекции. Не у всех образуется иммунитет (цифру не скажу), и вакцина не гарантирует полную устойчивость к болезни.

Мы должны оценивать эффективность вакцинации не "в вакумме", а в реальной популяции, где в том числе присутствуют люди с проблемами со здоровьем. Это компексный показатель, и если он в целом не дает нужного эффекта, то тогда надо полагаться на другие методики снижения эпидемии.

Information

Rating
Does not participate
Registered
Activity