Pull to refresh

Завершилось соревнование по дата-майнингу Heritage Health Prize

Reading time3 min
Views11K

Крупнейшее со времен Netflix Prize соревнование в области анализа больших массивов данных подошло к концу. И хотя официальные результаты первой десятки и победитель будут объявлены через два месяца, итоги уже можно подводить.
Целью было спрогнозировать госпитализацию пациентов в течение будущего года на основании данных за предыдущие два года лечения. По замыслу спонсора это позволит больше внимания уделять именно тем пациентам, которые больше всего в нем нуждаются, за счет чего сэкономить часть из 30 млрд. $, ежегодно затрачиваемых в США на госпитализацию.
Заявленный организаторами приз в 3 000 000$ был недостижим из-за установленного предела точности в 0.4 RMSLE(меньше-лучше; лучший достигнутый результат 0.46; разница между первым и сотым местом 0.008; RMSLE — среднеквадратическое отклонение логарифмов) и предоставленных данных — в них просто не содержалось достаточного для достижения такого уровня точности количества информации. Поэтому фактически борьба шла за 500 000$, достающиеся лучшей команде, фонд промежуточных финишей и бесценный опыт.

Несмотря на сложность задачи, желающих попробовать свои силы набралось более полутора тысяч. Говорят, что в конкурсе даже участвовали два нобелевских лауреата, но кто это был и каковы успехи не признаются. Учитывая, что в области математики и программирования их не бывает, остается медицина — в качестве консультанта или экономика.

Соревнование длилось два года и имело три промежуточных финиша, на каждом из которых было два призовых места. Победители, по условиям конкурса, выкладывали описание своих методов. Однако соперникам это не сильно помогало, дело в том, что основные алгоритмы хорошо известны — это деревья решений, Random Forest(случайный лес), Gradient Boosting, Градиентный спуск, Ridge Regression(гребневая регрессия, регуляризация Тихонова) их модификации и комбинации. Отличия заключались в тонкостях реализации, использования, комбинирования и небольших вариациях самих алгоритмов. Однако деталей получалось так много, что не было понятно — за счет чего собственно достигается результат. То есть, что победители делают — понятно, не понятно почему они делают именно это, и почему то, что они делают работает.

По промежуточным финишам победители распределились так:
  • 1. Market Makers 2. Willem Mestrom
  • 1. Market Makers 2. Edward & Willem
  • 1. Edward & Willem 2. crescendo


Странности начались перед третьим промежуточным финишем — все три команды почти не использовали разрешенную раз в день проверку модели по 30% тестовых данных и лидер сменился без боя. Причиной оказалось объединение в одну команду, при этом нельзя было превысить лимит отправленных моделей за все время с начала конкурса — чудом уложились.

В день финиша предварительные результаты по 30% тестовых данных выглядели так.
Но самое интересное было в результатах по скрытой части, опубликованных через несколько дней, отражающих истинные оценки работы алгоритмов.
Сводная таблица для первых 50-ти мест:

Главным врагом был эффект, наиболее ярко наблюдающийся у команды Almata, занимавшей первое место по открытому рейтингу. Это overfitting — переподгонка. Они добыли всю полезную информацию из данных по которым считался рейтинг, основываясь на оценках рейтинга, и вместе с ней захватили вредную, специфическую для набора информацию. В результате ухудшается(или по крайней мере не улучшается) оценка для неизвестных данных. Итог — перемещение с 1-го на 19-е место.

Победитель и оценки первых 10-ти участников будут официально объявлены в начале июня на конференции Health Datapalooza IV. Однако почти нет сомнений в победе POWERDOT — команды образованой слиянием победителей промежуточных финишей. Имея в своем распоряжении 3 лучших результата, они получили возможность неявно обучаться по скрытой части рейтинга, после чего бороться с ними стало невозможно.
Зато поучиться было чему. Для меня это выразилось в перемещении с 261-го места по итогам последнего промежуточного финиша на финальное 27-е. Могло быть повыше — понимание происходящих процессов пришло слишком поздно, зато в следующий раз будет интереснее.

Описание методов победителей промежуточных финишей (из их комбинации наверняка и будет составлен алгоритм победитель) можно почитать здесь (много математики и маневров, которых я до сих пор не понимаю).

UPD 2013.07.15. Как и прогнозировалось победили POWERDOT с результатом 0.461197. После зачистки от нарушителей правил, использовавших множественные аккаунты, изменился вид итоговой таблицы. А организаторы обещают вторую часть конкурса с приглашениями по результатам первой.
Tags:
Hubs:
+27
Comments6

Articles