Как стать автором
Обновить
62
0
Никита Иванов @Nikitius_Ivanov

Пользователь

Отправить сообщение

Да действительно интересное наблюдение! У меня есть пока только одно объяснение связанно с повышенной детской смертностью, в целом в цифры вписывается, чем она выше в стране тем больше перекос между молодыми и старыми. Вот быстро накидал график смертности по этим трем странам:

Хороший вопрос! В большинстве случаев это верно, но не всегда, ожидаемая продолжительность жизни по большому счету зависит только от одного параметра -- смертности в возрастных группах, что есть ни что иное, как количество популяции в данном возрасте поделить на количество смертей в данном возрасте. И чем этот коэффициент смертности выше - тем продолжительность жизни в этом возрасте будет ниже. Как правило смертность увеличивается с возрастом а популяция падает, но не всегда, если половозрастная пирамида имеет провалы, как например в России, то возможны такие скачки продолжительности жизни.

Здравствуйте! Спасибо за такой развернутый комментарий и очень рад что прочитали статью и задаете такие осмысленные вопросы. Постараюсь ответить:

" Далее. С предлогами что-то не очень. ....Отсюда вопрос, а как эта очистка внутри датасаенса обосновывается. Почему мы так не теряем что-нибудь сущностное. "

-- Да, конечно теряем, в том числе и удаляя запятые и приводя слова к нижнему регистру мы теряем часть смысла и эмоции, но в тоже время обрасывая некоторую уникальность каждого текста мы получаем возможность привести тексты к некоторому общему знаменателю и лучше находить между ними общие черты, что-то вроде абстрации, но тут, конечно довольно тонкий момент и очень много зависит от корпуса текстов.

"И это, однако, мелочи по сравнению с (см. внутри кода камент) "убираем с помощью запроса пересекающиеся слова". "

-- Слова пересекающиеся убирались только для построения облаков слов, чтобы визуализировать именно то чем отличаются два набора комментариев. При обучении классификатора он сам подобрал веса слов таким образом что негативные слова получили больший отрицательный вес а более позитивные -- больший положительный вес, в чем мы убедились на втором графике.

В целом замечания очень правильные. Метод, описанный мной тут и приведенный для демонстрации базовых техник работы с текстамии, далек от идеала, что видно на примерах оценок в конце статьи. Данный алгоритм в принципе не способен распознавать сарказм иронию и т.д. за этим нужно обращаться к глубоким нейросетям-трансформерам типа GPT, обучение которых требует гораздо более серьезных вычислении. Но даже этот алогоритм на большой статистике, например на тысячах комментариях, вполне способен давать адекватную оценку эмоциональной окраске, ведь большинство людей все-таки еще пишут по-старинке "спасибо" когда им что-то нравится и "уходи" когда не нравится.

Спасибо! На последнем графике добавил подписи на осях.

Думаю, что разобраться можно во всём, если есть желание и время. DS очень обширное поле деятельности и уровень необходимых математических знаний сильно варьируется. Для старта думаю будет достаточно: освежить школьную математику, вспомнить что такое производные, основы линейной алгебры и операций с матрицами и базовые понятия из теории вероятностей и статистики, случайные величины их распределения, условная вероятность. В том же практикуме по DS кажется сейчас появился бесплатный модуль диагностики математики, который позволяет понять какие моменты нужно подтянуть перед обучением.

Сейчас на испытательном сроке, но пока очень интересно, постараюсь написать через какое-то время о своих впечатлениях)

Мы, конечно, пока не знаем какая информация нужна для создания копии сознания (если это вообще возможно), но из того что известно, мозг каким-то образом играет тут ключевую роль, а коннектом — лучшая на данный момент модель позволяющая описать структуру мозга.

Было бы здорово список финалистов опубликовать в каждой из категорий, такая обратная связь была бы информативнее, чем просто список победителей.

Спасибо за то, что уделили внимание и за оценку! Скажите, а что Вам показалось наиболее неверным и «притянутым за уши»?
Спасибо, что заметили этот момент! Действительно изначально описание нотации было, поскольку были планы еще разобрать немного матрицы плотности, но в последний момент решил, что статья и так слишком раздулась. Если что, в английской вики хорошая статья про бра-кет нотацию: en.wikipedia.org/wiki/Bra%E2%80%93ket_notation
Спасибо, действительно минус пропустил (( И именно поэтому в разложении будет потом не сумма а разность.
Автор сходу, что называется, берёт быка за рога и приводит таблицу о смертности связанной с новым коронавирусом от CDC:

«Пожалуйста, посмотрите на таблицу ниже: левый столбик с количеством умерших среди подтверждённых на коронавирус — 13 130 человек; третий справа с количеством умерших с пневмонией при наличии COVID-19 — 5902 человека. Разница более чем в 2 раза!»

Итак, сверяемся с оригиналом, да все верно, смотрим расшифровки данных под таблицей, вроде и тут все без обмана. Но затем сразу делает неизвестно откуда взявшийся вывод:

«То есть количество смертей от коронавируса в США минимум в 2 раза меньше, чем принято считать большинством.»

Сногсшибательное заявление, делая которое, нужно обладать ну, как минимум сильными аргументами. Ведь только что автор фактически исключил всех людей, умерших от пневмонии и имевших положительный результат на новый коронавирус и сказал, что их смерть не могла быть вызвана COVID -19.

Давайте разберемся зачем вообщем там нужны эти цифры по смертности от пневмонии в этих таблицах. Сами авторы этой статистики — NCHS (Национальная система статистики естественного движения населения США) в конце статьи так поясняют, почему в таблице приведены данные по смертям от пневмонии и гриппу:

«Смертность от пневмонии и гриппа включена, чтобы обеспечить контекст для понимания полноты данных о смертности COVID-19 и связанных с ними тенденций. Смертность от COVID-19 может быть ошибочно классифицирована как смерть от пневмонии или гриппа при отсутствии положительных результатов теста, а пневмония или грипп могут появиться в свидетельствах о смерти как сопутствующее заболевание. Кроме того, симптомы COVID-19 могут быть схожи с гриппоподобным заболеванием, поэтому смерти могут быть ошибочно классифицированы как грипп. Таким образом, увеличение смертности от пневмонии и гриппа может быть показателем избыточной смертности, связанной с COVID-19. Кроме того, оценки полноты смертности от пневмонии и гриппа могут предоставить контекст для понимания задержки в сообщениях о смертности от COVID-19, так как ожидается, что эти причины будут иметь аналогичные задержки в отчетности, обработке и кодировании.»

То есть, если коротко: «мы сейчас еще плохо разбираемся кто от чего умирает, но можем судить если смертность от пневмонии резко пошла вверх вместе с смертями от коронавируса, то значит какой-то вклад от коронавируса в этой избыточной смертности есть.»

И действительно, если смотреть на динамику то первые 7 недель, до роста количества смертей людей с COVID – 19, количество смертей от пневмонии оставалось примерно на одном уровне и составляло в среднем 3588 в неделю (5-й столбик слева).
Затем отчетливо видно на 8-9-10-х неделях одновременный рост, как смертей с новым коронавирусом, так и количества смертей от пневмонии, на лицо довольно отчетливая корреляция с линейным коэффициентом 0,82 (при максимально возможном 1), что может свидетельствовать о большой вероятности вклада нового коронавируса в смертность от пневмонии. Для наглядности, сделал на скорую руку график с данными из этих двух столбиков.

Но корреляция, конечно, не есть причинность и этот вклад нужно доказывать, но как минимум и исключать вклад коронавируса в эти смерти так же преждевременно. И подобная манипуляция в самом начале статьи создает очень большую долю спепсиса по касательно всего остального содержания.

image
Спасибо за статью!

Полностью согласен с тем, что публикация недостоверных данных в условиях кризиса недопустима и ведет к необдуманным и зачастую ошибочным решениям.

Но если подумать, то большая часть всех инсинуаций с данными возникает и приобретает широкую массовую известность, как следствие информационного вакуума. Наверное не слишком ошибусь, если скажу, что в научном сообществе, по многим вопросам, касающимся текущей эпидемии, нет еще единого мнения. И это не удивительно, ведь несколько месяцев это довольно маленький срок для формирования какого-то надежного массива данных.

И это влечет за собой еще одну проблему, с одной стороны чтобы получить достоверные данные о распространении вируса необходимо провести контролируемые эксперименты, массовое тестирование и все тщательно проверить, конечно, это все необходимо начинать делать сразу же, но все это время люди будут продолжать инфицироваться.

А учитывая специфику респираторных вирусных инфекций и того, что они способны достаточно быстро распространяться по популяции, то мы приходим к неизбежности принятия мер в условиях недостаточных и неполных данных, по большому счету — с закрытыми глазами.

И если поставить себя на незавидное место человека, ответственного за принятие решения в такой ситуации, то вполне можно понять логику тех руководителей, которые выбирают максимально жесткие меры, возможно и избыточные, но это будут уже последствия с которым нужно будет разбираться после.

Конечно, напоминать о трезвом обращении с данными всегда полезно. Но еще полезнее будет вынести уроки о подготовке эффективной системы мониторинга эпидемиологической ситуации, думаю после этой эпидемии это станет приоритетной задачей многих стран.

Пост обновлен 31.03. Была добавлена информация из брифа ВОЗ, опубликованного на их сайте 29.03.2020, с разъяснениями по поводу возможности аэрогенной передачи коронавируса и рекомендациями по необходимым мерам индивидуальной защиты для предотвращения заражения.
Тоже склоняюсь к этому, но чтобы официально заявить такое потребуются надежные экспериментальные подтверждения, ценой ошибки может быть неоправданная паника.
На данный момент подтверждено только то, что новый коронавирус передается капельным — droplet путем, про перенос в виде аэрозолей официальной позиции пока нет, об этом собственно, в обзоре упоминается.
Ну по поводу практичности тут заранее не угадаешь, мы еще очень много не знаем о старении, может и тут есть какой то ключ. Обри конечно это наше все. Посмотрите еще Джорджа Чёрча, о нем гораздо меньше людей слышали, но многие трансгуманисты возлагают на него большие надежды: nplus1.ru/news/2019/12/13/church-dna-dating
Социальные факторы сильно разнятся по странам, и их анализ представляется гораздо более сложным занятием, сама же разница в продолжительности жизни между мужчинами и женщинами универсальна это видно на графике 1, где часто рядом стоят страны сильно различающихся по культурным традициям и уровню жизни, Ямайка — Бельгия, Того (западная Африка) и Швеция. Из чего можно сделать вывод, что существуют переменные влияющие на разницу продолжительности жизни мужчин и женщин не коррелирующие с уровнем жизни медицины и социальными традициями. Анализу этих переменных я и хотел собственно посвятить статью)
Вроде при построении гистограмм такое допускается, а по поводу подписи — полностью согласен с замечанием, добавил более развернутое описание.
У каждой страны зеленый столбик — это общая средняя продолжительность жизни мужчин и женщин вместе, синий столбик — доля от общей продолжительности жизни, которую составляет разница между продолжительностью жизни женщин и мужчин в каждой стране.
1

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность