Скандал на конкурсе Kaggle: победитель сжульничал, алгоритм плохо оценивает шанс бездомных животных найти хозяев



    Kaggle — система организации конкурсов по исследованию данных, принадлежащая компании Google — обнаружила мошенничество в результатах одного из своих конкурсов. Победителя конкурса отстранили от участия в дальнейших соревнованиях.

    Kaggle регулярно организует конкурсы в сфере обработки данных и машинного обучения. Призы на этих конкурсах могут достигать десятков тысяч долларов. На прошлой неделе компания объявила, что команда-победитель конкурса, который состоялся в прошлом году и был посвящён улучшению работы сайта по поиску хозяев для бездомных животных, выиграла обманом.

    По условиям конкурса участники должны были разработать алгоритмы прогнозирования скорости поиска хозяев для бездомных животных для сайта PetFinder.my. Алгоритм BestPetting, команды-победителя, оказался лучшим среди участников с почти идеальным счетом — 0,912 из 1,0. В награду команда получила $10 000, а её решение было внедрено в работу сайта. Однако через девять месяцев после конкурса выяснилось, что результаты команды были слишком хороши, чтобы быть правдой.

    Бенджамин Миниксхофер, программист из Австрии, который тоже участвовал в конкурсе и занял шестое место, вызвался помочь компании PetFinder интегрировать алгоритм в работу сайта. При этом он обнаружил, что команда BestPetting использовала в разработке своего решения закрытые данные с PetFinder.my, что давало ей незаконное преимущество. Эти данные она замаскировала в своём коде. Кроме того, команда использовала полученные данные не для всех питомцев, а для одного из десяти, чтобы избежать абсолютно идеального результата и не вызвать подозрений. Способ обмана Миниксхофер подробно описал в статье на Kaggle.com. При этом в комментарии для Motherboard он подчеркнул, что без обмана команда оказалась бы на приблизительно сотом месте со счетом 0,427526.

    «Очень печально, что такие блестящие профессионалы пошли на все, чтобы обмануть конкурс, целью которого было спасение животных, исключительно ради собственной выгоды», — отметил Энди Кох, основатель PetFinder.

    Как пишет Motherboard, мошенничество — не редкость в соревнованиях Kaggle. Для некоторых участников, помимо денежных призов, очень важны звания Kaggle, например, Expert или Grandmaster, которые можно получить, победив в конкурсе. Многих в сообществе разработчиков шокировало то, сколько усилий команда затратила на свой обман, а также тот факт, что некоторые из членов команды уже имели высокие звания в Kaggle. Среди них оказался, например, Павел Плесков, у которого уже был титул Kaggle Grandmaster и который не раз побеждал в различных конкурсах. После того, как мошенничество BestPetting было обнаружено, Kaggle навсегда заблокировала Плескова. По информации Kaggle, «доказательства указывают на то, что он был ключевым лицом этой мошеннической кампании». В Twitter Плесков извинился от имени своей команды и отметил, что намерен вернуть призовые деньги PetFinder.my.

    «Для меня речь шла не о деньгах, а, скорее, о том, чтобы стать номером один в рейтинге. Я надеюсь, что хотя бы некоторые из вас простят меня, и что другие участники будут учиться на моих ошибках».

    В дополнение к потере своего звания Плесков также лишился работы в компании по разработке программного обеспечения с открытым исходным кодом H2O.ai, которая стремится приглашать на работу специалистов со званием Kaggle Grandmaster.

    «Действия в отношении конкурса Kaggle, о которых нам стало известно, идут вразрез с ценностями компании. Мы провели расследование, и этот человек больше не связан с H2O.ai», — заявили в компании.

    Этот скандал, как считает Бенджамин Миниксхофер, говорит о том, что Kaggle должна улучшить систему защиты от мошенников.

    «Весь этот инцидент очень расстроил меня. Не только потому, что это подрывает легитимность соревнований Kaggle в целом, но и потому, что я потратил довольно много времени на исследование их решения и интеграцию его в работу сайта. Я уверен, что каждый, кто выигрывает деньги в конкурсе, должен публиковать открытый исходный код своего решения. Я не единственный, кто так считает, и я понятия не имею, почему этого всё ещё не делается».

    Как указывает Motherboard, хотя сейчас в правилах Kaggle есть пункт о том, что решения для конкурса должны быть с открытым исходным кодом, это означает лишь то, что алгоритмы должны разрабатываться по лицензии с открытым исходным кодом, а не обнародоваться.

    «Это лазейка в правилах, которую хозяева соревнований даже не замечают», — считает Миниксхофер. Внедрение новых правил, по его словам, «предотвратит подобные инциденты в будущем».
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 22

      +8
      Дурацкий вопрос: а что там за закрытые данные и почему к этим данным не было доступа у других команд? Я не про моральную сторону и поведение сжульничавшей команды, а про сайт PetFinder.my. Им это решение вообще нужно было или нет?
        +3
        Насколько я понял из статьи, они просто нашли «ответы» для тестовых данных («использовала полученные данные не для всех питомцев, а для одного из десяти, чтобы избежать абсолютно идеального результата и не вызвать подозрений»), ну, то есть сайту это решение мало что дало… но, видимо, надо оригинальную статью на kaggle почитать, чтобы до конца понять суть.
          +2
          Если я правильно понимаю, данные, на которых будет проводиться сравнение алгоритмов, почти всегда закрывают — иначе можно «заточить» алгоритм именно на этот датасет (так называемый overfitting). В итоге у всех конкурсантов будет 90-100%, а в реальности все будет печально.
            +2
            Может быть задача была найти хозяев для тех животных для которых хозяева были уже найдены, иначе в принципе не понятно, как это проверять.
            –19
            Не понимаю суть претензий. Цель соревнования — написать программу для предсказания. Как она будет предсказывать это уже не важно. А если бы там был random и внезапно на тестовом прогоне было бы 100% попадание их бы тоже наказали?
            Чем это отличается от например такого:
            Видео

              +19
              Цель соревнования — написать программу для предсказания.

              Нет. Цель — придумать модель, которая будет хорошо решать поставленную задачу. Ваш комментарий выглядит как «Не понимаю почему списывать на экзамене плохо. Цель экзамена — получить оценку. Что выучит студент уже не важно. А если он ответит бред и случайно угадает, его тоже накажут?»
                –1
                А Вы, между прочим, попробуйте как-нибудь сдать экзамен по альтернативной модели (которая при этом будет иметь сравнимое количество доказательных публикаций по исследованиям). Такие модели в массе есть, например, в биотехе, медицине и, насколько понимаю, физике и астрономии. Да что там альтернативная модель, я слышал, некоторые преподаватели терпеть не любят, когда предмет сдают не по их конспектам (то есть, то же самое, но иными словами). Так что, в реальной жизни все же экзамены, цель которых — получить оценку, все же есть.
                +2
                Как минимум претензии в том, что, соглашаясь на участие в соревновании, ты соглашаешься с правилами его проведения, где чёрным по белому написано, что «Publicly, freely available external data is permitted, excluding data found on the PetFinder.my website. The source of any external data must be posted to the official competition forum prior to the Entry Deadline.» Нарушены были оба пункта. Причём с явным умыслом и изощренностью.
                  0
                  Насчёт второго пункта — не факт.
                  Из оригинала новости с kraggle:
                  was disguised as part of their external «cute-cats-and-dogs-from-pixabaycom» dataset
                  можно понять, что они использовали «external data» с другого сайта, причём информацию об этом dataset они очень даже запостили на форуме. Т.е. второй пункт был 100% выполнен.
                  Так что главная проблема лишь с пунктом «excluding data found on the PetFinder.my website» — и тут для доказательства злого умысла необходимо доказать, что этот pixabay принадлежал именно им.
                  Если бы не было попытки обфускации такого использования — всё вполне бы сошло с рук.

                  Да и обфускацию можно объяснить попыткой защиты от копирования конкурентами.
                +10
                В обсуждениях пишут, что «Pavel Pleskov seems to be a well known serial cheater (...he was removed from Google's Landmark Retrieval for cheating)». И еще: «Furthermore, about a half a year ago he was temporarily banned from Kaggle for mining Bitcoin in kernels.»
                  –8

                  Хайли лайкли?

                    +2
                    И еще: «Furthermore, about a half a year ago he was temporarily banned from Kaggle for mining Bitcoin in kernels.»

                    совместил приятное с полезным (или наоборот)
                      +1
                      И после этого ещё хватает наглости заявлять
                      Для меня речь шла не о деньгах, а, скорее, о том, чтобы стать номером один в рейтинге.
                    +4

                    они соскрейпили данные с самого сайта и исключив оттуда публичные данные — получили закрытый датасет.


                    думаю надо делать определенный аудит решения топ-3 победителей, и если читерство найдется то исключать и банить их отовсюду.
                    Таким образом пропадет смысл в читерстве, если выиграешь — точно попадешься, и достаточно попасться один раз чтобы тебя забанили отовсюду навсегда.


                    также можно делать третий скрытый датасет (после окончания конкурса) — и прогонять топовые решения на нем и если где-то замечено будет сильная просадка, то это явный знак читерства

                      0
                      Полностью согласен с жесткими мерами и без второго шанса. У нас и без этого мало времени двигать прогресс / успеть оптимизировать хоть какие то области, что бы отвлекаться еще на расследование «читерства».
                      По третьему дата сету все не так однозначно: 1) обычно нет столько статистически значимых данных, что бы хватило и на обучающую выборку и 2 проверочных датасета. 2) Если продукт пишется по совести, то разработчику для самоконтроля достаточно быть уверенным, что «сетка» показывает результат на данных которые она никогда не видела, а уж какой датасет это будет по счету это не важно.
                        +2
                        У нас и без этого мало времени двигать прогресс / успеть оптимизировать хоть какие то области, что бы отвлекаться еще на расследование «читерства».


                        У кого «у нас»? Каждый организатор соревнований организует проверку решений как ему нравится и насколько хватает способностей (не всегда там есть специалисты, иначе бы и соревнования не приходилось устраивать).
                      +1
                      Обычное дело на Кеггле, во всех конкурсах в топе сидят скраперы и оверфитеры. Участники обманывают и организаторов и себя. Каждый конкурс начинается с того, что кто-нибудь прощупывает закрытый тестовый датасет, потом делится с командой.

                      Если организатор не озаботился очисткой и не анонимизировал данные, то доходит до взлома БД сайтов.
                      Полученные данные можно загнать в модель и никто фарш не сможет повернуть назад. Хотя, во многих конкурсах, добытые данные можно сделать публичными.

                      Кстати, недавно закончились конкурсы где организаторам пришлось выкинуть из оценки >50% и 89% данных.
                        +1
                        Ссылки в поддержку этих довольно голословных утверждений есть? Не про обнаруженные лики в данных, что случается, а именно про «прощупывание» тестового сета, «взломы бд», «загонку в модель», и что везде сидят «скраперы».
                          0
                          В новостях должны быть ссылки на массовые баны и полеты с первых мест на двухсотые, надо поискать.

                          Тестовый сет всегда щупают, загнать синтетические предсказания и погадать по лидерборду, большого ума не требует.
                          Некоторые, правда, слишком усердствуют и тогда в обсуждениях закипают бурления. В основном со стороны «гадалок» и оверфитеров.

                          Про «загонку в модель» очевидно — модель не может сказать на каких данных ее обучали. Поэтому организаторам в условиях надо обязывать участников давать параметры и алгоритм обучения.

                          А взломы это те же лики, только в совершенно дикой манере. Когда в интернет торчит SQL база с приватными данными и их нельзя опубликовать, потом прикрыли, а кто успел тот и съел. Тут становится жалко потраченного времени.

                          Соревнования на табличках — самые нервные, организаторы как и везде, мешают данные с бурдой и обещают полцарства, а потом не обещают, просто сворачиваются из-за утечки.
                          С картинками интересней, но мощностей надо на пару порядков больше.
                        0
                        Пару лет назад в топе лидерборды любого соревнования kaggle не менее 15% ников были с примечанием [ods.ai]

                        Почему сейчас исчезли? Ведь расследование kaggle показало, что в этой команде нет читерства.
                        Это запрет kaggle на рекламу? Или есть иная какая причина?
                          0
                          Время конечно ускорилось в последнее время, но пару лет назад ники с примечанием [ods.ai] только только начали появляться :) Был период, когда это было модно, такая бравада тем какие мы классные как сообщество, а потом просто сошло на нет, как и любые поветрия без глубокой основы, да и соревнований стало много, участники размазываются по ним, нет такого как раньше, когда кто-то кричал «пойдём камеру решать» и пара сотен человек на месяц залипали над соревнованием (и особенно когда обострилась борьба за справедливость и на любые обсуждения за пределами кагла стали смотреть как на великий грех). Тем не менее из одс очень много участников и в топах тоже.
                          +4

                          Помню смотрел выступление Pavel Pleskov, где он рассказывал как стать Kaggle мастером, и на тебе — клеймо читера.

                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                          Самое читаемое