Comments 24
Цель соревнования — написать программу для предсказания.
Нет. Цель — придумать модель, которая будет хорошо решать поставленную задачу. Ваш комментарий выглядит как «Не понимаю почему списывать на экзамене плохо. Цель экзамена — получить оценку. Что выучит студент уже не важно. А если он ответит бред и случайно угадает, его тоже накажут?»
Из оригинала новости с kraggle:
was disguised as part of their external «cute-cats-and-dogs-from-pixabaycom» datasetможно понять, что они использовали «external data» с другого сайта, причём информацию об этом dataset они очень даже запостили на форуме. Т.е. второй пункт был 100% выполнен.
Так что главная проблема лишь с пунктом «excluding data found on the PetFinder.my website» — и тут для доказательства злого умысла необходимо доказать, что этот pixabay принадлежал именно им.
Если бы не было попытки обфускации такого использования — всё вполне бы сошло с рук.
Да и обфускацию можно объяснить попыткой защиты от копирования конкурентами.
Как я понимаю, там была классическая схема для оценки: два датасета, один из которых открытый (с ответами), а второй закрытый, для тестирования. Так что, никакого предсказания в 9 из 10 случаев не было, а было просто "списывание", если так можно выразиться.
они соскрейпили данные с самого сайта и исключив оттуда публичные данные — получили закрытый датасет.
думаю надо делать определенный аудит решения топ-3 победителей, и если читерство найдется то исключать и банить их отовсюду.
Таким образом пропадет смысл в читерстве, если выиграешь — точно попадешься, и достаточно попасться один раз чтобы тебя забанили отовсюду навсегда.
также можно делать третий скрытый датасет (после окончания конкурса) — и прогонять топовые решения на нем и если где-то замечено будет сильная просадка, то это явный знак читерства
По третьему дата сету все не так однозначно: 1) обычно нет столько статистически значимых данных, что бы хватило и на обучающую выборку и 2 проверочных датасета. 2) Если продукт пишется по совести, то разработчику для самоконтроля достаточно быть уверенным, что «сетка» показывает результат на данных которые она никогда не видела, а уж какой датасет это будет по счету это не важно.
Если организатор не озаботился очисткой и не анонимизировал данные, то доходит до взлома БД сайтов.
Полученные данные можно загнать в модель и никто фарш не сможет повернуть назад. Хотя, во многих конкурсах, добытые данные можно сделать публичными.
Кстати, недавно закончились конкурсы где организаторам пришлось выкинуть из оценки >50% и 89% данных.
Тестовый сет всегда щупают, загнать синтетические предсказания и погадать по лидерборду, большого ума не требует.
Некоторые, правда, слишком усердствуют и тогда в обсуждениях закипают бурления. В основном со стороны «гадалок» и оверфитеров.
Про «загонку в модель» очевидно — модель не может сказать на каких данных ее обучали. Поэтому организаторам в условиях надо обязывать участников давать параметры и алгоритм обучения.
А взломы это те же лики, только в совершенно дикой манере. Когда в интернет торчит SQL база с приватными данными и их нельзя опубликовать, потом прикрыли, а кто успел тот и съел. Тут становится жалко потраченного времени.
Соревнования на табличках — самые нервные, организаторы как и везде, мешают данные с бурдой и обещают полцарства, а потом не обещают, просто сворачиваются из-за утечки.
С картинками интересней, но мощностей надо на пару порядков больше.
Почему сейчас исчезли? Ведь расследование kaggle показало, что в этой команде нет читерства.
Это запрет kaggle на рекламу? Или есть иная какая причина?
Помню смотрел выступление Pavel Pleskov, где он рассказывал как стать Kaggle мастером, и на тебе — клеймо читера.
Скандал на конкурсе Kaggle: победитель сжульничал, алгоритм плохо оценивает шанс бездомных животных найти хозяев