Comments 31
Столь подробная статья про бустинг и случайный лес — лучше подарка на день рождения! Благодарю.
Только это пока не бустинг, про бустинг наверняка будет отдельная статья.
Про xgboost тоже очень хорошо написано, можно пока документацию почитать. Хотя там не хватает мануала, как его тьюнить.
Нет так страшен черт, как его малюют.
Интересно только тем, кто делает домашки и следит за рейтингом
Объявляется конкурс по визуализации данных.
Строите любые картинки на данных по статьям Хабра из нашего соревнования, кидаете в слэке OpenDataScience ("а че это?" – см. ниже ) в канал #mlcourse_open (обязательно с тегом #vis_contest), радуетесь лайкам.
Побеждает тот, у кого больше плюсов
1 место (по плюсам) – 8 баллов в рейтинг
2 место – 6 баллов
3-6 место – 4 балла
7-10 место – 2 балла
Подсчет баллов будет 3 апреля в 00:00 (UTC+3), т.е. вместе с результатами 5 домашки
Если еще нет доступа к указанному слэку
Тогда заполняете заявку на вступление в ODS, указав "mlcourse_open" в графе "Откуда вы узнали об opendatascience?".
Обсуждение курса ведется в канале #mlcourse_open
Немного статистики по 4 домашке.
Распределение оценок
Число посылок по дням
Доля верных ответов по вопросам
Число решений по каждой домашней работе
, внутри них ссылки на валидные svg с формулами. А в статье не видно…
Chrome, Ubuntu.
m = (n+1)/2
Просто эта формула в домашке используется, поэтому данный момент важен.
Она не решается формулой Байеса в чистом виде? У меня как-то объемно получилось, для понимания пришлось дерево рисовать…
UPD: Видеозапись лекции по мотивам этой статьи в рамках нового запуска открытого курса (сентябрь-ноябрь 2017).
37% здесь — это число деревьев (моделей, не объектов), для которых отсутствует элемент в их модельной подвыборке. Если N — число моделей (не l, не объектов), то будет, действительно, вероятность с возвращением. Проверка качества обучения осуществляется на _моделях_, в выборки которых не попал этот объект (т.е. их порядка 37% и будет). OOB — это больше про тестирование моделей, а не про долю объектов.
Это sampling with replacement (с возвращением), не понятно, к чему комментарий, что мы разные объекты берем. При сэмплировнии с возвращением как раз разные объекты и берутся, в каждом вытаскивании независимо, поэтому возможны дубликаты. Bootstrapping.
Нигде не говорится, что модель бэггинга "обучается на 63% данных". Каждая базовая модель обучается на выборке с возвращением из исходной выборки, в которой в среднем 63% уникальных объектов.
Про OOB error действительно неточность. Спасибо, поправим.
По поводу выборки с возвращением и нет — я полагаю, что это сильно от реализации зависит. Например, в части библиотек ансамбль могут называть бутстрэп, но по факту там «складной нож» (о нем бы тоже хорошо бы написать здесь — чтобы было понятно, зачем именно бутстрэп нужен). Лично мне метод «складного ножа» по части выборки видится намного более обоснованным, чем бутстрэп по всей: обучаться на повторных данных примерно бессмысленно, а повторения как раз и «скрадывают» часть (~37%) данных. Проще сразу взять 70% или 80%, но без повторений — так в CatBoost с их временными рядами вроде и делают.
Лучше поздно чем никогда: поправил описание в англоязычной статье курса, русскоязычная версия уже не поддерживается, и тут хабр тоже не дает править. Спасибо!
Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес