sat2707 Jun 15 2017 at 15:17

AgeHack — первый онлайн-хакатон по продлению жизни на платформе MLBootCamp

3 min

9.4K

VK corporate blogBig Data*Data Mining*Machine learning*

+38

Comments 16

erwins22 Jun 15 2017 at 17:09

Я надеялся на сотни реальных параметров…

sat2707 Jun 15 2017 at 17:20

Довольно сложно собрать 100 x 100k. Мы бы с удовольствием, но… К тому же, не всё разрешено обнародовать

SADKO Jun 15 2017 at 20:52

Я не никогда участвовал в конкурсах вроде этого, просто на данные взглянуть захотелось, проверить мыслишку одну, ибо дохтор внутри меня твердит что решение тривиально, но не суть…

… а в данные специально испорчены? это типа часть задачи?

sat2707 Jun 16 2017 at 01:00

Нет, специально мы данные не портили. Но мы специально не стали их чистить :)

SADKO Jun 16 2017 at 03:42

А очень похоже на логическую порчу, ибо вполне себе лечатся, и даже вписываются в общую модель…
… а тестовое множество, оно такое же будет весёлое?

sat2707 Jun 16 2017 at 14:21

Нет, честное слово, ничего не портили. Просто не чистили, дали как есть :)
А поделено равномерно. То есть, да, в тестовом должны сработать все те же ухищрения по чистке датасета

SADKO Jun 18 2017 at 15:11

Вот тут-то и развернётся борьба :-) но к медицине это уже никакого отношения не имеет :-(

sat2707 Jun 19 2017 at 10:47

А мне кажется, за месяц все успеют и чистку датасета расковырять, и собственно саму модель

Germanets Jun 16 2017 at 10:27

Датасет сформирован из 100.000 реальных клинических анализов

Тут получается интересный момент — все эти 100.000 человек как минимум пришли в больницу по какой-то причине и после этого были направлены на проверку тех самых сердечно-сосудистых заболеваний(иначе в выборке просто не было бы ответа — есть заболевания или нет)… Я так подозреваю, что большинство из этих людей пришли в больницу уже с жалобами на сердечно-сосудистую систему, и выборка получается далека от среднего человека.

sat2707 Jun 16 2017 at 14:23

Не, на самом деле есть куча причин, по которым человеку могут измерить рост, вес, глюкозу итп. Та же диспансеризация, к примеру, так что выборка довольно репрезентативная

Germanets Jun 16 2017 at 16:01

Эти параметры — да, измерят, но как при этом поймут, что у человека есть\нет сердечно-сосудистых заболеваний? То, что человек на них не жалуется и не попадал с ними в больницу — это не показатель, я знаю 2х людей, у которых нашли врождённый порог сердца в 20, а до этого никто и не догадывался об отклонениях. Только если врачи при диспансеризации ещё и исследуют сердечно-сосудистую систему, а для этого у меня в больнице недостаточно даже отдельных жалоб на боли — нужно описать действительно какой-то серьёзный симптом и только тогда тебя отправят к специалисту — кардиологу или ещё кому-то.

sat2707 Jun 18 2017 at 03:25

Честно говоря, я совсем не силен в медицине. Но вот как я на это смотрю:
Естественно, ни один врач не поставит диагноз лишь по этим 11-ти параметрам (были еще анализы, анамнез, в конце концов интуиция специалиста). И возможно, что у пациента были какие-то еще причины заинтересоваться состоянием своего здоровья, помимо простой диспансеризации.
Но так или иначе, вот мы имеем 100 тысяч пациентов, о которых мы знаем ровно 11 параметров и точно знаем факт наличия ССЗ после доп.исследований (если я вас верно понял, факт отсутствия ССЗ мы даже в этом случае можем знать лишь условно?). Почему бы не исследовать возможные корреляции. Конечно, вряд ли мы сразу же на выходе получим модель предсказания группы риска, подходящую для всех и каждого (я наконец-то понял смысл вашего первого комментария о «выборка далека от среднего человека»). Но с чего-то нужно начинать, я уверен, что результаты будут интересны :)
Кроме того, возможно чемпионат выявит DS-специалистов, заинтересовавшихся именно этой тематикой и желающих работать дальше именно в этом направлении.

SADKO Jun 18 2017 at 15:09

точно знаем факт наличия ССЗ

Лично я в этом сильно сомневаюсь, ибо кроме косяков упомянутых мною выше, база сия полна пациентов чудных ;-)
CCЗ — не диагноз, но абстракция очень высокого уровня, и на самом деле, в ряде случаев доктор способен 100% определить наличие ССЗ только по одному виду пациента, и по циферкам в базе некоторые пациенты должны быть гарантированными обладателями ССЗ, но если верить базе они ими не являются…
… я грешу на потенциальные ошибки ввода любых параметров, включая само наличие ССЗ!

sat2707 Jun 19 2017 at 10:41

Ну если рассуждать логически и представить себе оцифровку медкарты, то скорее можно ожидать ошибку ввода любых параметров, _исключая_ наличие ССЗ :)

Batin Jun 16 2017 at 18:15

А кому будет принадлежать интеллектуальная собственность на результаты работы?

sat2707 Jun 16 2017 at 18:16

По правилам чемпионата, участники из топ-10 присылают решения для валидации (грубо говоря, «проверка на списывание»).
Но решения участников принадлежат участникам.