Как стать автором
Обновить

Комментарии 6

Спасибо! Люблю, когда статья и сама по делу, и список близких хороших статей имеет.)
Заметил, что для random forest, в первом примере, количество n_estimators было задано 500. Grid search обнаружил более точный результат при n_estimators 350. Может попробовать варьировать n_estimators в более широком диапазоне?
Первый вызов (500) — это просто иллюстрация того, как можно использовать классификатор, поэтому параметры взяты практически с потолка.

В зачет Kaggle уходит классификатор из автоподбора GridSearchCV — я там менял диапазоны и в более узких и в более широких параметрах, правда без особого фанатизма, это быстро надоедает :)
Замечательно пишете.

Вы в других соревнованиях не участвовали? Титаник это хорошо, но просто. Было бы интересно почитать ваш разбор какого-нибудь более насыщенного соревнования.
Пример для xgboost у меня почему-то не работает. Падает с ошибкой:
XGBoostError: b'base_score must be in (0,1) for logistic loss'
на строке alg_xgb_grid.fit(train_data_scaled, train_data_munged[«Survived»])

В чём может быть ошибка?
github.com/dmlc/xgboost/blob/master/src/learner/objective-inl.hpp#L104

могу только предположить, что либо train_data_munged[«Survived»] вышел за пределы, либо у классификатора есть какой-то незаданный параметр который в вашей версии библиотеки (у меня 0.4) установлен в другое значение.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории