AnnieBronson Jan 16 2020 at 16:55

Скандал на конкурсе Kaggle: победитель сжульничал, алгоритм плохо оценивает шанс бездомных животных найти хозяев

3 min

28K

Big Data * Algorithms * Machine learning * Programming * Finance in IT

+32

Comments 24

BJM Jan 16 2020 at 17:15

Дурацкий вопрос: а что там за закрытые данные и почему к этим данным не было доступа у других команд? Я не про моральную сторону и поведение сжульничавшей команды, а про сайт PetFinder.my. Им это решение вообще нужно было или нет?

UFO landed and left these words here

slonpts Jan 16 2020 at 18:21

Если я правильно понимаю, данные, на которых будет проводиться сравнение алгоритмов, почти всегда закрывают — иначе можно «заточить» алгоритм именно на этот датасет (так называемый overfitting). В итоге у всех конкурсантов будет 90-100%, а в реальности все будет печально.

ScreamPassion Jan 17 2020 at 08:05

Может быть задача была найти хозяев для тех животных для которых хозяева были уже найдены, иначе в принципе не понятно, как это проверять.

UFO landed and left these words here

AC130 Jan 16 2020 at 22:06

Цель соревнования — написать программу для предсказания.

Нет. Цель — придумать модель, которая будет хорошо решать поставленную задачу. Ваш комментарий выглядит как «Не понимаю почему списывать на экзамене плохо. Цель экзамена — получить оценку. Что выучит студент уже не важно. А если он ответит бред и случайно угадает, его тоже накажут?»

santjagocorkez Jan 17 2020 at 14:06

А Вы, между прочим, попробуйте как-нибудь сдать экзамен по альтернативной модели (которая при этом будет иметь сравнимое количество доказательных публикаций по исследованиям). Такие модели в массе есть, например, в биотехе, медицине и, насколько понимаю, физике и астрономии. Да что там альтернативная модель, я слышал, некоторые преподаватели терпеть не любят, когда предмет сдают не по их конспектам (то есть, то же самое, но иными словами). Так что, в реальной жизни все же экзамены, цель которых — получить оценку, все же есть.

CheY Jan 16 2020 at 22:08

Как минимум претензии в том, что, соглашаясь на участие в соревновании, ты соглашаешься с правилами его проведения, где чёрным по белому написано, что «Publicly, freely available external data is permitted, excluding data found on the PetFinder.my website. The source of any external data must be posted to the official competition forum prior to the Entry Deadline.» Нарушены были оба пункта. Причём с явным умыслом и изощренностью.

SinsI Jan 17 2020 at 07:28

Насчёт второго пункта — не факт.
Из оригинала новости с kraggle:

was disguised as part of their external «cute-cats-and-dogs-from-pixabaycom» dataset

можно понять, что они использовали «external data» с другого сайта, причём информацию об этом dataset они очень даже запостили на форуме. Т.е. второй пункт был 100% выполнен.
Так что главная проблема лишь с пунктом «excluding data found on the PetFinder.my website» — и тут для доказательства злого умысла необходимо доказать, что этот pixabay принадлежал именно им.
Если бы не было попытки обфускации такого использования — всё вполне бы сошло с рук.

Да и обфускацию можно объяснить попыткой защиты от копирования конкурентами.

ArtemWernon Oct 10 2022 at 08:38

Как я понимаю, там была классическая схема для оценки: два датасета, один из которых открытый (с ответами), а второй закрытый, для тестирования. Так что, никакого предсказания в 9 из 10 случаев не было, а было просто "списывание", если так можно выразиться.

kxx Jan 16 2020 at 19:00

В обсуждениях пишут, что «Pavel Pleskov seems to be a well known serial cheater (...he was removed from Google's Landmark Retrieval for cheating)». И еще: «Furthermore, about a half a year ago he was temporarily banned from Kaggle for mining Bitcoin in kernels.»

justhabrauser Jan 16 2020 at 20:22

Хайли лайкли?

UFO landed and left these words here

Surround Jan 17 2020 at 04:41

И после этого ещё хватает наглости заявлять

Для меня речь шла не о деньгах, а, скорее, о том, чтобы стать номером один в рейтинге.

somurzakov Jan 16 2020 at 19:10

они соскрейпили данные с самого сайта и исключив оттуда публичные данные — получили закрытый датасет.

думаю надо делать определенный аудит решения топ-3 победителей, и если читерство найдется то исключать и банить их отовсюду.
Таким образом пропадет смысл в читерстве, если выиграешь — точно попадешься, и достаточно попасться один раз чтобы тебя забанили отовсюду навсегда.

также можно делать третий скрытый датасет (после окончания конкурса) — и прогонять топовые решения на нем и если где-то замечено будет сильная просадка, то это явный знак читерства

GokenTanmay Jan 17 2020 at 05:25

Полностью согласен с жесткими мерами и без второго шанса. У нас и без этого мало времени двигать прогресс / успеть оптимизировать хоть какие то области, что бы отвлекаться еще на расследование «читерства».
По третьему дата сету все не так однозначно: 1) обычно нет столько статистически значимых данных, что бы хватило и на обучающую выборку и 2 проверочных датасета. 2) Если продукт пишется по совести, то разработчику для самоконтроля достаточно быть уверенным, что «сетка» показывает результат на данных которые она никогда не видела, а уж какой датасет это будет по счету это не важно.

UFO landed and left these words here

Carburn Nov 27 2021 at 21:17

как это нет закрытого датасета?а где тогда гарантия, что на не проверочном датасете не обучились просто?

Celsius Jan 17 2020 at 07:27

Обычное дело на Кеггле, во всех конкурсах в топе сидят скраперы и оверфитеры. Участники обманывают и организаторов и себя. Каждый конкурс начинается с того, что кто-нибудь прощупывает закрытый тестовый датасет, потом делится с командой.

Если организатор не озаботился очисткой и не анонимизировал данные, то доходит до взлома БД сайтов.
Полученные данные можно загнать в модель и никто фарш не сможет повернуть назад. Хотя, во многих конкурсах, добытые данные можно сделать публичными.

Кстати, недавно закончились конкурсы где организаторам пришлось выкинуть из оценки >50% и 89% данных.

CheY Jan 17 2020 at 08:15

Ссылки в поддержку этих довольно голословных утверждений есть? Не про обнаруженные лики в данных, что случается, а именно про «прощупывание» тестового сета, «взломы бд», «загонку в модель», и что везде сидят «скраперы».

Celsius Jan 17 2020 at 15:33

В новостях должны быть ссылки на массовые баны и полеты с первых мест на двухсотые, надо поискать.

Тестовый сет всегда щупают, загнать синтетические предсказания и погадать по лидерборду, большого ума не требует.
Некоторые, правда, слишком усердствуют и тогда в обсуждениях закипают бурления. В основном со стороны «гадалок» и оверфитеров.

Про «загонку в модель» очевидно — модель не может сказать на каких данных ее обучали. Поэтому организаторам в условиях надо обязывать участников давать параметры и алгоритм обучения.

А взломы это те же лики, только в совершенно дикой манере. Когда в интернет торчит SQL база с приватными данными и их нельзя опубликовать, потом прикрыли, а кто успел тот и съел. Тут становится жалко потраченного времени.

Соревнования на табличках — самые нервные, организаторы как и везде, мешают данные с бурдой и обещают полцарства, а потом не обещают, просто сворачиваются из-за утечки.
С картинками интересней, но мощностей надо на пару порядков больше.

ChePeter Jan 17 2020 at 07:35

Пару лет назад в топе лидерборды любого соревнования kaggle не менее 15% ников были с примечанием [ods.ai]

Почему сейчас исчезли? Ведь расследование kaggle показало, что в этой команде нет читерства.
Это запрет kaggle на рекламу? Или есть иная какая причина?

UFO landed and left these words here

kemsky Jan 17 2020 at 08:47

Помню смотрел выступление Pavel Pleskov, где он рассказывал как стать Kaggle мастером, и на тебе — клеймо читера.