Pull to refresh

Comments 16

Довольно сложно собрать 100 x 100k. Мы бы с удовольствием, но… К тому же, не всё разрешено обнародовать
Я не никогда участвовал в конкурсах вроде этого, просто на данные взглянуть захотелось, проверить мыслишку одну, ибо дохтор внутри меня твердит что решение тривиально, но не суть…

… а в данные специально испорчены? это типа часть задачи?
Нет, специально мы данные не портили. Но мы специально не стали их чистить :)
А очень похоже на логическую порчу, ибо вполне себе лечатся, и даже вписываются в общую модель…
… а тестовое множество, оно такое же будет весёлое?
Нет, честное слово, ничего не портили. Просто не чистили, дали как есть :)
А поделено равномерно. То есть, да, в тестовом должны сработать все те же ухищрения по чистке датасета
Вот тут-то и развернётся борьба :-) но к медицине это уже никакого отношения не имеет :-(
А мне кажется, за месяц все успеют и чистку датасета расковырять, и собственно саму модель
Датасет сформирован из 100.000 реальных клинических анализов

Тут получается интересный момент — все эти 100.000 человек как минимум пришли в больницу по какой-то причине и после этого были направлены на проверку тех самых сердечно-сосудистых заболеваний(иначе в выборке просто не было бы ответа — есть заболевания или нет)… Я так подозреваю, что большинство из этих людей пришли в больницу уже с жалобами на сердечно-сосудистую систему, и выборка получается далека от среднего человека.
Не, на самом деле есть куча причин, по которым человеку могут измерить рост, вес, глюкозу итп. Та же диспансеризация, к примеру, так что выборка довольно репрезентативная
Эти параметры — да, измерят, но как при этом поймут, что у человека есть\нет сердечно-сосудистых заболеваний? То, что человек на них не жалуется и не попадал с ними в больницу — это не показатель, я знаю 2х людей, у которых нашли врождённый порог сердца в 20, а до этого никто и не догадывался об отклонениях. Только если врачи при диспансеризации ещё и исследуют сердечно-сосудистую систему, а для этого у меня в больнице недостаточно даже отдельных жалоб на боли — нужно описать действительно какой-то серьёзный симптом и только тогда тебя отправят к специалисту — кардиологу или ещё кому-то.
Честно говоря, я совсем не силен в медицине. Но вот как я на это смотрю:
Естественно, ни один врач не поставит диагноз лишь по этим 11-ти параметрам (были еще анализы, анамнез, в конце концов интуиция специалиста). И возможно, что у пациента были какие-то еще причины заинтересоваться состоянием своего здоровья, помимо простой диспансеризации.
Но так или иначе, вот мы имеем 100 тысяч пациентов, о которых мы знаем ровно 11 параметров и точно знаем факт наличия ССЗ после доп.исследований (если я вас верно понял, факт отсутствия ССЗ мы даже в этом случае можем знать лишь условно?). Почему бы не исследовать возможные корреляции. Конечно, вряд ли мы сразу же на выходе получим модель предсказания группы риска, подходящую для всех и каждого (я наконец-то понял смысл вашего первого комментария о «выборка далека от среднего человека»). Но с чего-то нужно начинать, я уверен, что результаты будут интересны :)
Кроме того, возможно чемпионат выявит DS-специалистов, заинтересовавшихся именно этой тематикой и желающих работать дальше именно в этом направлении.
точно знаем факт наличия ССЗ

Лично я в этом сильно сомневаюсь, ибо кроме косяков упомянутых мною выше, база сия полна пациентов чудных ;-)
CCЗ — не диагноз, но абстракция очень высокого уровня, и на самом деле, в ряде случаев доктор способен 100% определить наличие ССЗ только по одному виду пациента, и по циферкам в базе некоторые пациенты должны быть гарантированными обладателями ССЗ, но если верить базе они ими не являются…
… я грешу на потенциальные ошибки ввода любых параметров, включая само наличие ССЗ!
Ну если рассуждать логически и представить себе оцифровку медкарты, то скорее можно ожидать ошибку ввода любых параметров, _исключая_ наличие ССЗ :)
А кому будет принадлежать интеллектуальная собственность на результаты работы?
По правилам чемпионата, участники из топ-10 присылают решения для валидации (грубо говоря, «проверка на списывание»).
Но решения участников принадлежат участникам.
Sign up to leave a comment.