Pull to refresh

Comments 17

UFO just landed and posted this here
Спасибо :)

Да, PDP планируются. И да, настройки H2O GBM тоже разберем. По-крайней мере, основные. H2O просто сильно угарели, и запилили штук 30 дополнительных настроек и небольших твиков. Все настройки перебирать смысла нет, обычно достаточно дергать 3-4 ручки (как именно как раз и будем разбираться).

Алексей, понимаю что это мелочи, но все же, у Вас в тексте статьи не отобразились пару формул. Статья хорошая, не все ещё понял, буду разбираться. Спасибо.

Спасибо :)

Мы попробовали пофиксить этот косяк, но к сожалению, на мобильной версии Хабра ломаются \begin{equation} формулы. Сперва думали, что дело в переносах строк, но это не помогло.

Участникам курса


Продублирую здесь информацию по окончанию курса. Что еще нас ожидает:


  • Домашняя работа №10 (~ 22 мая появится, времени на нее – неделя)
  • Тьюториалы, которые вы сами можете написать. Подробности тут (до 31 мая)
  • Соревнования Kaggle Inclass (до 29 мая)

Встреча в московском офисе Mail.ru Group, посвященная финалу курса, пройдет 10 июня (а не в мае, как раньше предполагалось)

И еще ~ 1 июня выйдет 2 часть по бустингу, уже без домашнего задания либо с заданием по желанию.

Финальный рейтинг складывается из:


  • текущего рейтинга
  • 10 домашки (макс. 10 баллов)
  • тьюториалов (макс. 40 баллов)
  • соревнований (макс. по 40 баллов за каждое из двух)

В веб-форме 10 домашки спросим, кто готов посетить митап 10 июня в московском офисе Mail.ru. Отвечать "да" стоит, если Вам это интересно, есть возможность приехать в Москву, а также если Вы попадаете в топ 200 рейтинга. Приглашены будут топ 100 по рейтингу, но очевидно, кто-то откажется, поэтому ставьте "да", если попадаете в топ 200.
Программа митапа 10 июня будет оглашена позже, но там точно будет лекция и практика по нейронным сетям (CNN и RNN), будут рассмотрены приложения к задачам текстовой аналитики.

А зачем в logistic loss двойка?


log(1 + exp(-2yf))

Я понимаю, что это ни на что принципиально не влияет, просто масштабный коэффициент, но всё же обычно обходятся без него.

Двойка действительно мало на что влияет, кроме исторически сложившегося описания через odds ratio. Даже, вообще говоря, двух обоснований: и через биномиальное лог правдоподобие, и через кросс-энтропию (да, оптимизируем то же самое).


Я хотел подчистую скопипастить оригинальный вывод из Elements of Statistical Learning, там ровно одна страница 346 (365 в pdf), "10.5 Why Exponential Loss?". Но чтото у меня ТеХ в комментах не работает :(


А с инженерной точки зрения, эта двойка ни на что не влияет, кроме сравнения разных реализаций (чтобы числа одинаковые в обучении получались).

Участникам курса
10 домашка по бустингу тут. Дедлайн — 30 мая 23.59 UTC +3.
В конце веб-формы к этой домашке вопрос про участие в митапе 10 июня. Желательно, чтоб как можно больше участников курса ответили.

Финишная прямая курса:


  • Дедлайны по соревнованиям Kaggle Inclass – 29 мая. Надо переименовать свою команду из одного человека в точном соответствии с тем, как оно указано в рейтинге. В течение 2 дней после этого (до 23.59 среды 31 мая) надо загрузить свои решения – по Хабру сюда и по веб-сессиям Элис сюда. Решение должно быть воспроизводимым Python-скриптом (можно, например, тетрадку экспортировать в скрипт), по которому получается нужный файл посылки – обязательно сами прогоните перед тем как отправлять. Чтобы решение воспроизводилось быстро, закомментруйте подбор параметров. Например, если у вас есть блок с GridSearchCV, подбирающим глубину дерева (скажем, лучшее значение – 5), закомментируйте строку, где этот объект обучается (fit) и далее напишете, например, best_depth=5. Напомню, баллы за соревнования начисляются только тем, кто побил бенчмарки на приватном рейтинге (который как раз 29-го откроется), переименовал себя как надо и прислал воспроизводимое решение.
  • Во вторник дедлайн по 10 домашке. Обратите внимание, что там справшивается про посещение митапа в Мэйле 10 июня. Желательно, чтоб как можно больше людей ответили.
  • В среду последний день публикации тьюториалов и дедлайн по загрузке скриптов своих kaggle-решений
  • До пятницы 2 июня учитываются голоса за тьюториалы (отдельно про это напишу, соберем все тьюториалы вместе). Также подводится финальный рейтинг.
  • примерно в начале июня выйдет еще 2 часть про бустинг, уже без задания либо с опциональным заданием
  • к 5 июня определяемся с итоговым списком посещения митапа в Мэйле 10 июня (про него еще отдельно сообщение будет)

Комментарии к домашнему заданию №10 (были неточности формулировки):


  • используйте везде random_state=17
  • log_loss в классификации считайте ненормированным (то есть не надо делить на число объектов) – как в формулах, предложенных во 2 вопросе задания. Лучше тетрадку с заданием смотреть в nbviewer-версии
У XGBoost можно нарисовать итоговое дерево с помощью `plot_tree`. Как оно строится? Там не фигурируют «слабые» модели, там конкретные условия.

Новый запуск курса – 5 февраля 2018 г. Регистрация не требуется, но чтобы мы о вас знали, заполните форму. Главные новости будут в группе ВКонтакте, а жизнь во время курса будет теплиться в Slack OpenDataScience (вступить) в канале #mlcourse_open.

Что такое тета малая, откуда она взялась и зачем она нужна?

Новый запуск – 1 октября 2018 г., на английском. Подробности – тут.

Теперь курс можно проходить и самостоятельно – появились демо-версии заданий с решениями. Они описываются в конце каждой статьи, но есть и общий cписок. Решения доступны после отправки соотв. веб-формы.

Sign up to leave a comment.