natekin May 18 2017 at 13:49

Открытый курс машинного обучения. Тема 10. Градиентный бустинг

18 min

292K

Open Data Science corporate blogData Mining*Algorithms*Mathematics*Machine learning*

+62

Comments 17

UFO just landed and posted this here

natekin May 18 2017 at 21:19

Спасибо :)

Да, PDP планируются. И да, настройки H2O GBM тоже разберем. По-крайней мере, основные. H2O просто сильно угарели, и запилили штук 30 дополнительных настроек и небольших твиков. Все настройки перебирать смысла нет, обычно достаточно дергать 3-4 ручки (как именно как раз и будем разбираться).

vylyky May 19 2017 at 16:00

Алексей, понимаю что это мелочи, но все же, у Вас в тексте статьи не отобразились пару формул. Статья хорошая, не все ещё понял, буду разбираться. Спасибо.

natekin May 19 2017 at 16:02

Спасибо :)

Мы попробовали пофиксить этот косяк, но к сожалению, на мобильной версии Хабра ломаются \begin{equation} формулы. Сперва думали, что дело в переносах строк, но это не помогло.

yorko May 20 2017 at 18:50

Участникам курса

Продублирую здесь информацию по окончанию курса. Что еще нас ожидает:

Домашняя работа №10 (~ 22 мая появится, времени на нее – неделя)
Тьюториалы, которые вы сами можете написать. Подробности тут (до 31 мая)
Соревнования Kaggle Inclass (до 29 мая)

Встреча в московском офисе Mail.ru Group, посвященная финалу курса, пройдет 10 июня (а не в мае, как раньше предполагалось)

yorko May 20 2017 at 18:55

И еще ~ 1 июня выйдет 2 часть по бустингу, уже без домашнего задания либо с заданием по желанию.

yorko May 20 2017 at 19:05

Финальный рейтинг складывается из:

текущего рейтинга
10 домашки (макс. 10 баллов)
тьюториалов (макс. 40 баллов)
соревнований (макс. по 40 баллов за каждое из двух)

В веб-форме 10 домашки спросим, кто готов посетить митап 10 июня в московском офисе Mail.ru. Отвечать "да" стоит, если Вам это интересно, есть возможность приехать в Москву, а также если Вы попадаете в топ 200 рейтинга. Приглашены будут топ 100 по рейтингу, но очевидно, кто-то откажется, поэтому ставьте "да", если попадаете в топ 200.
Программа митапа 10 июня будет оглашена позже, но там точно будет лекция и практика по нейронным сетям (CNN и RNN), будут рассмотрены приложения к задачам текстовой аналитики.

Phaker May 25 2017 at 23:39

А зачем в logistic loss двойка?

log(1 + exp(-2yf))

Я понимаю, что это ни на что принципиально не влияет, просто масштабный коэффициент, но всё же обычно обходятся без него.

natekin May 26 2017 at 15:11

Двойка действительно мало на что влияет, кроме исторически сложившегося описания через odds ratio. Даже, вообще говоря, двух обоснований: и через биномиальное лог правдоподобие, и через кросс-энтропию (да, оптимизируем то же самое).

Я хотел подчистую скопипастить оригинальный вывод из Elements of Statistical Learning, там ровно одна страница 346 (365 в pdf), "10.5 Why Exponential Loss?". Но чтото у меня ТеХ в комментах не работает :(

А с инженерной точки зрения, эта двойка ни на что не влияет, кроме сравнения разных реализаций (чтобы числа одинаковые в обучении получались).

yorko May 27 2017 at 12:17

Участникам курса
10 домашка по бустингу тут. Дедлайн — 30 мая 23.59 UTC +3.
В конце веб-формы к этой домашке вопрос про участие в митапе 10 июня. Желательно, чтоб как можно больше участников курса ответили.

yorko May 28 2017 at 22:52

Финишная прямая курса:

Дедлайны по соревнованиям Kaggle Inclass – 29 мая. Надо переименовать свою команду из одного человека в точном соответствии с тем, как оно указано в рейтинге. В течение 2 дней после этого (до 23.59 среды 31 мая) надо загрузить свои решения – по Хабру сюда и по веб-сессиям Элис сюда. Решение должно быть воспроизводимым Python-скриптом (можно, например, тетрадку экспортировать в скрипт), по которому получается нужный файл посылки – обязательно сами прогоните перед тем как отправлять. Чтобы решение воспроизводилось быстро, закомментруйте подбор параметров. Например, если у вас есть блок с GridSearchCV, подбирающим глубину дерева (скажем, лучшее значение – 5), закомментируйте строку, где этот объект обучается (fit) и далее напишете, например, best_depth=5. Напомню, баллы за соревнования начисляются только тем, кто побил бенчмарки на приватном рейтинге (который как раз 29-го откроется), переименовал себя как надо и прислал воспроизводимое решение.
Во вторник дедлайн по 10 домашке. Обратите внимание, что там справшивается про посещение митапа в Мэйле 10 июня. Желательно, чтоб как можно больше людей ответили.
В среду последний день публикации тьюториалов и дедлайн по загрузке скриптов своих kaggle-решений
До пятницы 2 июня учитываются голоса за тьюториалы (отдельно про это напишу, соберем все тьюториалы вместе). Также подводится финальный рейтинг.
примерно в начале июня выйдет еще 2 часть про бустинг, уже без задания либо с опциональным заданием
к 5 июня определяемся с итоговым списком посещения митапа в Мэйле 10 июня (про него еще отдельно сообщение будет)

yorko May 29 2017 at 15:39

Комментарии к домашнему заданию №10 (были неточности формулировки):

используйте везде random_state=17
log_loss в классификации считайте ненормированным (то есть не надо делить на число объектов) – как в формулах, предложенных во 2 вопросе задания. Лучше тетрадку с заданием смотреть в nbviewer-версии

QtRoS Dec 16 2017 at 22:57

У XGBoost можно нарисовать итоговое дерево с помощью `plot_tree`. Как оно строится? Там не фигурируют «слабые» модели, там конкретные условия.

yorko Dec 18 2017 at 09:39

Новый запуск курса – 5 февраля 2018 г. Регистрация не требуется, но чтобы мы о вас знали, заполните форму. Главные новости будут в группе ВКонтакте, а жизнь во время курса будет теплиться в Slack OpenDataScience (вступить) в канале #mlcourse_open.

-1

enabokov Feb 6 2018 at 12:17

Что такое тета малая, откуда она взялась и зачем она нужна?

yorko May 13 2018 at 22:47

Новый запуск – 1 октября 2018 г., на английском. Подробности – тут.

yorko Jun 13 2018 at 17:23

Теперь курс можно проходить и самостоятельно – появились демо-версии заданий с решениями. Они описываются в конце каждой статьи, но есть и общий cписок. Решения доступны после отправки соотв. веб-формы.