Comments / Profile of PythonAnalyst / Habr

Python, BigData, Analysis

Subscribers

PythonAnalyst Feb 20 2022 at 06:44

В свое время у меня были проекты с двумя подсистемами ('Presentation' и 'Controller Presentation'), в которых я отдельно выделял саму форму (со всеми ее интерактивными методами работы кнопочек, полей ввода, переключателей....) и бизнес- логику ее работы. Не вижу никакой сложности сделать это самостоятельно. Со временем выпилил это деление, потому что у меня примитивный интерфейс, но это уже моя специфика.

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 8 2022 at 18:23

Это не доказательство. Половина больших регионов - тоже разные по размеру. Какая разница между самым большим и маленьким среди большой половины?

К сожалению, подобного анализа (только для крупных регионов) я выполнить уже не могу: точек осталось и так мало, поэтому ошибка расчета регрессионной прямой будет очень велика. В этом и заключается основная проблема исследователя: с помощью статистики он может доказать то или иное утверждение лишь до определенной точности, всегда ограничиваясь определенным уровнем статистической значимости.

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 8 2022 at 18:10

И мне непонятно почему бы не посчитать с весом ВСЕ регионы

Это описано в UPDATE III: среднее значение очень неробастная метрика (т.е. небольшие изменения в исходных данных приводят к большим отклонениям в среднем). В итоге легко могут получится несоотвествующие действительности цифры, и меня будут носом тыкать в эти странные цифры со словами: "вот как на самом деле правильно!". А это всего- навсего естественная ошибка, заложенная в механизм расчета среднего.
Это также неправильно, как эстраполировать прямую к значениям 0 и 1: алгоритм регрессии расчитал наклон линии с некоторой ошибкой, которая при подобной экстраполяции кратно увеличится в размерах (что видно по расширяющимся синим областям на краях графиках) и будет содержать непредсказуемые значения, которые ни о чем не говорят.

Надо опираться только на робастные оценки.

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 8 2022 at 11:44

Не вижу доказательства.

Если вы хотите регионам приписать веса, то более населенным регионам достанутся большие веса, и наша прямая предположительно должна сдвинуться в их сторону.
Я показал, что если строить график ТОЛЬКО исходя из регионов с большой численностью населения, то мы получим тот же самый график. Т.е. никаких значимых сдвижет регрессионной прямой в сторону больших регионов не будет даже в самом предельном случае, когда крупные регионы получает вес 1, а малочисленные 0. Все остальные виды взвешения дадут регрессионую прямую лежащую между двумя этими вариантами. Т.е. результата от взвешивания нет никакого.

Доказательством линейной зависимости я совершенно не занимался. Повторюсь, что для подобных супер- точностей у нас нет реальных возможностей. Все что мы можем сказать: растет как по теории- хорошо, нет- значит теория не верна. Прямая в данном случае всего- лишь показывает наклон зависимости, на все остальное в этой прямой обращать внимание не стоит.

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 7 2022 at 17:43

Запутались?

Нет, не запутался.

К сожалению, там только описательные слова.

Там под спойлером находятся графики, построенные на половине самых крупных регионов. Это полностью доказывает, что никакие взвешивания не нужны.

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 7 2022 at 06:01

кривая выходит из точки (0;~0) и идёт в (1;1)

Мы уже выяснили, что кривая выходит примерно из точки (0; 0.8) и что отличать эту кривую от прямой нет никакого смысла.

Применение веса для точек при апроксимации - хороший способ.

Я уже на практике показал, что веса не влияют на результат. Повторяю свое предыдущее сообщение:

Пожалуйста, посмотрите раздел "UPDATE III: Корректность усреднения по регионам". Я добавил логику сравнения с самыми крупными регионами страны, что должно снять ваш вопрос.

Я писал, что на графиках надо смотреть ТОЛЬКО на наклон прямой. Этот наклон везде отлично виден (также приведены формулы, которые задают его численное значение). Поэтому никаких дополнительных модификаций графиков не требуется.

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 6 2022 at 17:25

У нас сильно зашумленные данные, поэтому супер точные оценки в любом случае не получатся. Я в публикации писал, что единственное, что представляет интерес- наклон регрессионной прямой, а на графики надо смотреть всего лишь как на качественные оценки, и если хотя бы знак наклона прямой совпадает с теоретическим, то радоваться, а если нет- огорчаться.

Поэтому какой бы закон не был реальным, в нашем случае это совершенно не важно.

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 6 2022 at 17:11

И не даёт мне покоя ещё апроксимация без учёта веса к каждой точке (региону)

Пожалуйста, посмотрите раздел "UPDATE III: Корректность усреднения по регионам". Я добавил логику сравнения с самыми крупными регионами страны, что должно снять ваш вопрос.

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 6 2022 at 13:11

Построил график со средней смертность за последние 4 года (столько данных у Росстата в оперативных данных):

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 6 2022 at 12:24

Надо добавить ещё три точки - общая смертности от доли невкационнированых - за октябрь, ноябрь и декабрь

Считать неприведенную общую смертность по отдельным месяцам не имеет смысла, потому что люди умирают не равномерно по месяцам: есть месяцы где год от года смертность выше, а есть где ниже.

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 6 2022 at 11:48

Решил в дальнейшем вас полностью игнорировать. Теперь вас здесь не кормят.

-1

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 6 2022 at 11:16

я расписал как это все считается исключительно по практическим данным с графика. Посмотрите еще раз. А данные вы можете взять откуда сочтете нужным

Где взять этот чудесный график? И зачем тогда нужен весь ваш расчет, если уже есть этот чудесный график? Надо сравнивать теорию с практикой, а не выводить теорию из на практике полученного графика.

p.s. Заканчиваю с вами беседу, поскольку вы опять троллите тем, что противоречит здравому смыслу.

-2

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 6 2022 at 10:53

можете считать, что это вероятности заболеть и умереть в конкретном месте в конкретный временной период

Как тогда ее расчитать, чтобы сравнивать с данными полученными на практике? Теоретически ввести можно все что угодно, вопрос насколько все эти введенные понятия достижимы.

Мы эти данные берем из графика, который получаем примерно также как и вы.

Я брал исходные данные из официальных источников. Если вы данные берете из ЧУЖОГО непроверенного графика, а не из официальных источников, то ваш результат будет зависеть от ЧУЖИХ непроверенных данных. Какой смысл делать компиляцию непроверенных данных? Вы так и не поняли мой пример про одеяло с нарисованными овечками, и готовы дальше разносить по инету непонятно кем сделанные вбросы.

p.s. Пожалуйста, продолжайте начатую дискуссию, не захламляйте обсуждение новыми темами.

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 6 2022 at 10:26

Во-первых, нужен не полугодовалый расчёт, а помесячный за последние полгода. У вас за последний квартал.

Получить отчеты за последние полгода достаточно просто: я привел код на Github, и все что нужно сделать- расширить список месяцев переданных в анализатор (конечно, если вы скачаете файлы данных для нужной вам страны и укажите к ним ваши пути).

Одна точка - один месяц. Надо последние полгода, значит 6 точек. Апроксимировать не надо, тендецию и так будет видно.

Подобный отчет я также написал (и он также представлен на Github в файле ExcessMortality.py). Единственное отличие- он строит график отдельно для каждого региона из 10 самых крупных регионов России (т.е. рисует 10 отчетов). Я его не описывал в работе, поскольку она (как мне показалось) получилась и так достаточно сложной.

Для вас я его немного переделал, чтобы он давал информацию в целом по России и размещаю ниже (в данном отчете избыточная смертность для обоих годов расчитывается относительно средней смертности за 2017, 2018 и 2019 года соответствующего месяца):

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 6 2022 at 09:26

Я уважительно отношусь в чужому труду, поэтому сделаю исключение и прокомментирую ваши теоретические изыскания.

Будет значительно проще понимать ваши формулы, если вы будете использовать классические обозначения: вероятность буквой P, а размер выборки N.
Процесс распространения заболевания- это динамический процесс (уровень распространения эпидемии растет и падает со временем), поэтому не описывается формулами комбинаторики вытаскивания шаров из корзины (где на время никто не обращает внимание). Поэтому подход с введением вероятностей заболеть для вакцинированных и невакцинированных некорректен, а вслед за этим весь дальнейший анализ также некорректен.
Для расчета эффективности вакцинации вы используете количество умерших в разрезе вакцинного статуса. Напишите, пожалуйста, источник, из которого вы намерены получить эти первичные данные? Мою работу критиковать легко, но когда попробуйте "пройтись в моих сапогах", тогда все сразу станет понятно.

-2

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 6 2022 at 07:21

Вы зря убрали теоретический график. Он очень важен для понимания что вы расчитываете.

У меня никогда не было приведено теоретического графика, поэтому я ничего не убирал. Вы не можете сами представить прямую, соединяющую две точки?

Update II - некорректен. Зависимость смертности от степени вакцинирования - неизвестна.

Задача Update II в том, чтобы показать, что даже на низких уровнях вакциниции происходит снижение смертности. Полную функцию смертности я нигде не брался рассчитывать.

Поэтому для полноты анализа нужны укрупнённые данные. Т.е. во-первых, за полгода. Лучше по январь, чтобы убедится в наличии переломного момента в декабре (или опровергнуть)

Укрупненные данные наоборот скроют в себе все детали, выдав общий результат за более крупный период. За январь пока нет данных, мне тоже интересно сохранится ли эта тенденция в следующем месяце.

Во-вторых, отдельный график: помесячные точки в таких же координатах смертность/невакцинированные. В этом случае, ваши помесячные графики будут служить уточнением, показывать тенденцию влияния (или отсутствия влияния) уровня вакцинации в каждом месяце.

Чем ваш второй отдельный график будет отличаться от моих помесячных графиков (если они строятся в тех же координатах и с той же месячной периодичностью)?

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 6 2022 at 05:32

Тогда зачем вы применяете неправильные термины, вводя людей в заблуждение?

Пожалуйста, укажите ошибку в моем подходе к сбору и обработке данных, и я поправлю публикацию так, чтобы она содержала только корректные выводы.

-2

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 5 2022 at 17:22

Сегодня я исправил одну ошибку которая по вашему мнению мне была неудобна (сильно снизился теоретический положительный угол наклона регрессионной прямой). Я благодарен Vivo22 за то что мы с помощью конструктивного диалога выявили ошибку и приблизись к истине.

Пожалуйста, привидите пример моей агрессивной реакции на критику.

Скажите, а почему вы не продолжаете начатую вами же беседу, а троллите в куче чужих веток?

-2

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 5 2022 at 13:33

Согласен с вами, при полностью привитом населении смертность должна повторить значения 2019 года (которые составляют примерно 0.8 от смертности 2020 года). Сейчас поправлю публикацию.

Спасибо за внимательность.

Анализ эффективности вакцинации в России и США

PythonAnalyst Feb 5 2022 at 11:21

Если 1-цу смертности ещё можно отождествить, то теоретический 0
сдвинется вверх на расчётной, потому что в расчётах смертность и по
другим причинам. И сдвинется сильно, потому что избыточная смертность в 2020г, приписываемая ковиду, значительно меньше смертности 2019г. ПоРосСтату разница в смертности ~18%. Получается, теоретический 0 - это 0.8 расчётный. Соответственно, коэффициент прямой уже будет 0.2.

Я специально преобразовал формулу избыточной смертности к разнице между 1 и приведенной разнице смертностей двух годов. Эта формула более проста для понимания тем, что концентрирует внимание именно на разнице, которая могла возникнуть только из- за эффекта вакцинации (в оба года существовали как обычные причины смерти, так и Covid- 19).

Теоретический график, скорее всего, будет другой. При полной вакцинации всё-равно будет смертность от инфекции. Не у всех образуется иммунитет (цифру не скажу), и вакцина не гарантирует полную устойчивость к болезни.

Мы должны оценивать эффективность вакцинации не "в вакумме", а в реальной популяции, где в том числе присутствуют люди с проблемами со здоровьем. Это компексный показатель, и если он в целом не дает нужного эффекта, то тогда надо полагаться на другие методики снижения эпидемии.

2 3 4 5 6