AnnieBronson Jan 16 2020 at 16:55

Скандал на конкурсе Kaggle: победитель сжульничал, алгоритм плохо оценивает шанс бездомных животных найти хозяев

3 min

26K

Big Data*Algorithms*Machine learning*Programming*Finance in IT

Kaggle — система организации конкурсов по исследованию данных, принадлежащая компании Google — обнаружила мошенничество в результатах одного из своих конкурсов. Победителя конкурса отстранили от участия в дальнейших соревнованиях.

Kaggle регулярно организует конкурсы в сфере обработки данных и машинного обучения. Призы на этих конкурсах могут достигать десятков тысяч долларов. На прошлой неделе компания объявила, что команда-победитель конкурса, который состоялся в прошлом году и был посвящён улучшению работы сайта по поиску хозяев для бездомных животных, выиграла обманом.

По условиям конкурса участники должны были разработать алгоритмы прогнозирования скорости поиска хозяев для бездомных животных для сайта PetFinder.my. Алгоритм BestPetting, команды-победителя, оказался лучшим среди участников с почти идеальным счетом — 0,912 из 1,0. В награду команда получила $10 000, а её решение было внедрено в работу сайта. Однако через девять месяцев после конкурса выяснилось, что результаты команды были слишком хороши, чтобы быть правдой.

Бенджамин Миниксхофер, программист из Австрии, который тоже участвовал в конкурсе и занял шестое место, вызвался помочь компании PetFinder интегрировать алгоритм в работу сайта. При этом он обнаружил, что команда BestPetting использовала в разработке своего решения закрытые данные с PetFinder.my, что давало ей незаконное преимущество. Эти данные она замаскировала в своём коде. Кроме того, команда использовала полученные данные не для всех питомцев, а для одного из десяти, чтобы избежать абсолютно идеального результата и не вызвать подозрений. Способ обмана Миниксхофер подробно описал в статье на Kaggle.com. При этом в комментарии для Motherboard он подчеркнул, что без обмана команда оказалась бы на приблизительно сотом месте со счетом 0,427526.

«Очень печально, что такие блестящие профессионалы пошли на все, чтобы обмануть конкурс, целью которого было спасение животных, исключительно ради собственной выгоды», — отметил Энди Кох, основатель PetFinder.

Как пишет Motherboard, мошенничество — не редкость в соревнованиях Kaggle. Для некоторых участников, помимо денежных призов, очень важны звания Kaggle, например, Expert или Grandmaster, которые можно получить, победив в конкурсе. Многих в сообществе разработчиков шокировало то, сколько усилий команда затратила на свой обман, а также тот факт, что некоторые из членов команды уже имели высокие звания в Kaggle. Среди них оказался, например, Павел Плесков, у которого уже был титул Kaggle Grandmaster и который не раз побеждал в различных конкурсах. После того, как мошенничество BestPetting было обнаружено, Kaggle навсегда заблокировала Плескова. По информации Kaggle, «доказательства указывают на то, что он был ключевым лицом этой мошеннической кампании». В Twitter Плесков извинился от имени своей команды и отметил, что намерен вернуть призовые деньги PetFinder.my.

«Для меня речь шла не о деньгах, а, скорее, о том, чтобы стать номером один в рейтинге. Я надеюсь, что хотя бы некоторые из вас простят меня, и что другие участники будут учиться на моих ошибках».

В дополнение к потере своего звания Плесков также лишился работы в компании по разработке программного обеспечения с открытым исходным кодом H2O.ai, которая стремится приглашать на работу специалистов со званием Kaggle Grandmaster.

«Действия в отношении конкурса Kaggle, о которых нам стало известно, идут вразрез с ценностями компании. Мы провели расследование, и этот человек больше не связан с H2O.ai», — заявили в компании.

Этот скандал, как считает Бенджамин Миниксхофер, говорит о том, что Kaggle должна улучшить систему защиты от мошенников.

«Весь этот инцидент очень расстроил меня. Не только потому, что это подрывает легитимность соревнований Kaggle в целом, но и потому, что я потратил довольно много времени на исследование их решения и интеграцию его в работу сайта. Я уверен, что каждый, кто выигрывает деньги в конкурсе, должен публиковать открытый исходный код своего решения. Я не единственный, кто так считает, и я понятия не имею, почему этого всё ещё не делается».

Как указывает Motherboard, хотя сейчас в правилах Kaggle есть пункт о том, что решения для конкурса должны быть с открытым исходным кодом, это означает лишь то, что алгоритмы должны разрабатываться по лицензии с открытым исходным кодом, а не обнародоваться.

«Это лазейка в правилах, которую хозяева соревнований даже не замечают», — считает Миниксхофер. Внедрение новых правил, по его словам, «предотвратит подобные инциденты в будущем».

Hubs: