Пожалуйста, приведите законы эпидемиологии / вирусологии, которые я нарушил. Я откорректирую свою публикацию, чтобы она содержала корректную информацию.
Все- таки надо разделять понятия "появился" и "стал доминировать". Дополнительно надо учесть, что после заболевания необходимо примерно 10 дней до наступления смерти, т.е. заболевшие Омикроном в конце декабря 2021 года умерли в начале января 2022 года и не попали в мое исследование.
Идея о том, что Дельта штамм более "сильный" была вброшена чтобы оправдать повышенную смертность среди частично привитого населения: дескать, смотрите даже половина непривитого народа умирает на 30% больше, чем в прошлом году вся популяция. В публикации я показал, что утверждение о смертности только среди непривитого население является ложным, а значит ложным является и тезис о более "сильном" Дельта- штамме.
Вы считаете, что эти факторы сильно изменились в течении года? Я анализирую отношение смертностей за два последовательных года, поэтому если считать, что эти факторы практически сохраняют свое значение, то при делении они дадут 1. К тому же я применил усреднение по различным регионам, которое дополнительно подавляет влияние приведенных вами факторов.
Я анализировал избыточную смертность, которая определена как отношение смертностей для 2021 и 2020 года. Поэтому если какой- то регион имеет в одном году более молодое население, то в следующем он скорее всего сохранит это отличие. Для отношений смертностей выполнять подобный анализ вполне корректно.
Для будущих поколений напишу, что у всех 'get'- методов есть параметр 'cache_dir', который по умолчанию смотрит на /tmp... Поэтому надо этот параметр направить в любую папку, которая сохраняется при перезагруке.
Спасибо за интересную разработку! Остался небольшой вопросик: как сохранять модель локально? Я долго ждал ее загрузки (3.14 ГБ) после чего несколько раз пользовался моделью. Но после перезагрузки компьютера модель приходится опять скачивать. Как избежать постоянного скачивания модели из сети?
Спасибо за интересную разработку! Остался небольшой вопросик: как сохранять модель локально? Я долго ждал ее загрузки (2.6 ГБ) после чего несколько раз пользовался моделью. Но после перезагрузки компьютера модель приходится опять скачивать. Как избежать постоянного скачивания модели из сети?
Я не вижу причин не доверять данным по загрязенению воздуха. Не думаю, что есть более качественная информация по этой теме, поэтому никаких сравнений не делал.
Когда начинал писать на Python, то тоже парился по поводу производительности. Но со временем понял, что надо научиться в коде отличать "обвязку" от высоконагруженных частей. Python надо использовать только как "клей", который соединяет высоконагруженные части, написанные на С/С++. Например, тяжелые алгоритмы ML написаны на С/С++, а весь остальной вызывающий код занимает сотые доли процента времени выпонения (и поэтому неважно насколько эффективно он выпоняется). Это очень похоже на работу с базой данных: "тяжелые" обращения к серверу будут определять скорость работы, а не клиентский код, формирующий эти запросы / отображающий результаты.
Год назад Pypy (да и думаю сейчас также) вываливался с ошибкой, если встречал модуль, написанный на С (в том числе numpy, несмотря на все обещания, что так не будет). Так что использовать его можно в ограниченном количестве проектов (например, все библиотеки ML написаны на С/С++).
Текст занимает очень мало места. Поэтому никакой опечатки нет: все 30 книг поместились в 26 МБ дискового пространства. И все же корпус слов, хранимый в оперативной памяти действительно вышел гигантский, в силу чего произошла нехватка оперативной памяти (даже при использовании файла подкачки). Поэтому я "на лету" сжимал данные с помощью gzip, и также "на лету" их разжимал. Добавлю об этом в статью, поскольку при работе с word2vec абсолютно все столкнутся с этой проблемой.
Методология word2vec дает близость слов по одинаковым контекстам использования. Т.е. если два разные слова употребляются рядом с одними и теми же словами, то word2vec решит, что эти слова близки. Например, в мед. литературе вполне логично, что слова врач, лаборант, ассистент взаимозаменяемы (поскольку врач может кому- то ассистировать во время операции, а лаборант выполнять тот же нарбор действий, что и врач).
Для улучшения качества можно разве что увеличить порог учета слова (я выбрал значене 30, против значения 5, предложенного по- умолчанию).
Все же я попрошу вас сообщить о нарушенных мной законах эпидемиологии / вирусологии. Я не умею искать черную кошку в черной комнате, когда ее там нет.
Вы написали о допущенных мной ошибках. Приведите их, пожалуйста.
В статье приведена информация о сдвижке в 10 дней для протекания заболевания.
Старики действительно умирают, а остальное население стареет на 1 год и возрастной состав практически сохраняется.
Мы говорим о соотношении молодого и старого населения, потому что именно такое возражение мне было высказано (и я именно на него отвечал).
Пожалуйста, приведите законы эпидемиологии / вирусологии, которые я нарушил. Я откорректирую свою публикацию, чтобы она содержала корректную информацию.
Обратите, пожалуйста, внимание, что в статье сделан анализ для двух стран: России и США. Причем в обеих странах получены одинаковые результаты.
Все- таки надо разделять понятия "появился" и "стал доминировать". Дополнительно надо учесть, что после заболевания необходимо примерно 10 дней до наступления смерти, т.е. заболевшие Омикроном в конце декабря 2021 года умерли в начале января 2022 года и не попали в мое исследование.
Я не анализировал отдельные регионы. Вывод делался на основании средней линии, которая учитывает все регионы страны.
Идея о том, что Дельта штамм более "сильный" была вброшена чтобы оправдать повышенную смертность среди частично привитого населения: дескать, смотрите даже половина непривитого народа умирает на 30% больше, чем в прошлом году вся популяция. В публикации я показал, что утверждение о смертности только среди непривитого население является ложным, а значит ложным является и тезис о более "сильном" Дельта- штамме.
Вы считаете, что эти факторы сильно изменились в течении года? Я анализирую отношение смертностей за два последовательных года, поэтому если считать, что эти факторы практически сохраняют свое значение, то при делении они дадут 1.
К тому же я применил усреднение по различным регионам, которое дополнительно подавляет влияние приведенных вами факторов.
Я анализировал избыточную смертность, которая определена как отношение смертностей для 2021 и 2020 года. Поэтому если какой- то регион имеет в одном году более молодое население, то в следующем он скорее всего сохранит это отличие. Для отношений смертностей выполнять подобный анализ вполне корректно.
Для будущих поколений напишу, что у всех 'get'- методов есть параметр 'cache_dir', который по умолчанию смотрит на /tmp... Поэтому надо этот параметр направить в любую папку, которая сохраняется при перезагруке.
Попробовал еще раз- теперь модель сохраняется :)
Возможно это было связано с тем, что я переустанавливал библиотеки (Pytorch и TensorFlow).
Спасибо за интересную разработку!
Остался небольшой вопросик: как сохранять модель локально? Я долго ждал ее загрузки (3.14 ГБ) после чего несколько раз пользовался моделью. Но после перезагрузки компьютера модель приходится опять скачивать. Как избежать постоянного скачивания модели из сети?
Спасибо за интересную разработку!
Остался небольшой вопросик: как сохранять модель локально? Я долго ждал ее загрузки (2.6 ГБ) после чего несколько раз пользовался моделью. Но после перезагрузки компьютера модель приходится опять скачивать. Как избежать постоянного скачивания модели из сети?
Я не вижу причин не доверять данным по загрязенению воздуха. Не думаю, что есть более качественная информация по этой теме, поэтому никаких сравнений не делал.
Когда начинал писать на Python, то тоже парился по поводу производительности. Но со временем понял, что надо научиться в коде отличать "обвязку" от высоконагруженных частей. Python надо использовать только как "клей", который соединяет высоконагруженные части, написанные на С/С++. Например, тяжелые алгоритмы ML написаны на С/С++, а весь остальной вызывающий код занимает сотые доли процента времени выпонения (и поэтому неважно насколько эффективно он выпоняется). Это очень похоже на работу с базой данных: "тяжелые" обращения к серверу будут определять скорость работы, а не клиентский код, формирующий эти запросы / отображающий результаты.
Год назад Pypy (да и думаю сейчас также) вываливался с ошибкой, если встречал модуль, написанный на С (в том числе numpy, несмотря на все обещания, что так не будет). Так что использовать его можно в ограниченном количестве проектов (например, все библиотеки ML написаны на С/С++).
Текст занимает очень мало места. Поэтому никакой опечатки нет: все 30 книг поместились в 26 МБ дискового пространства. И все же корпус слов, хранимый в оперативной памяти действительно вышел гигантский, в силу чего произошла нехватка оперативной памяти (даже при использовании файла подкачки).
Поэтому я "на лету" сжимал данные с помощью gzip, и также "на лету" их разжимал. Добавлю об этом в статью, поскольку при работе с word2vec абсолютно все столкнутся с этой проблемой.
Методология word2vec дает близость слов по одинаковым контекстам использования. Т.е. если два разные слова употребляются рядом с одними и теми же словами, то word2vec решит, что эти слова близки. Например, в мед. литературе вполне логично, что слова врач, лаборант, ассистент взаимозаменяемы (поскольку врач может кому- то ассистировать во время операции, а лаборант выполнять тот же нарбор действий, что и врач).
Для улучшения качества можно разве что увеличить порог учета слова (я выбрал значене 30, против значения 5, предложенного по- умолчанию).
Тематику можно определить опосредованно, по наиболее близким словам к центру кластеров. Вот они:
1. 'мазка', 'ковид', 'мазок', 'ротоглотка', 'осмотреть', 'отоскопия', 'носоглотка', 'бактериологический', 'цитологический', 'папаниколау'
2. 'информированный', 'согласение', 'согласие', 'договариваться', 'подписать', 'подписывать', 'огласить', 'испрашивать', 'направительный', 'анонимный'
3. 'томография', 'кт', 'рентгенография', 'грудной', 'скт', 'МСКТ', 'узи', 'мрт', 'мультиспиральный', 'ркт'
4. 'тестирование', 'тест', 'положительный', 'проба', 'ложноотрицательный', 'испытуемый', 'ложноположительный', 'отрицательный', 'кфт', 'самоотчёт'
5. 'сообщить', 'поступить', 'выдать', 'выписать', 'отобрать', 'перевести', 'обследоваться', 'емиас', 'выписываться', 'указать'
6. 'пневмония', 'вирусный', 'диагноз', 'внебольничный', 'вп', 'ковид', 'инфекция', 'сепсис', 'подозрение', 'миокардит'
7. 'гбуз', 'гкб', 'дзм', 'госпитализировать', 'долечивание', 'гуз', 'ткб', 'поликлиника', 'окб', 'больница'