MzMz 28 дек 2015 в 16:16

Kaggle и Titanic — еще одно решение задачи с помощью Python

23 мин

81K

Python*Машинное обучение*Программирование*Спортивное программирование*

Туториал

+29

Комментарии 6

valodik 29 дек 2015 в 08:43

Спасибо! Люблю, когда статья и сама по делу, и список близких хороших статей имеет.)

Dumbris 29 дек 2015 в 09:02

Заметил, что для random forest, в первом примере, количество n_estimators было задано 500. Grid search обнаружил более точный результат при n_estimators 350. Может попробовать варьировать n_estimators в более широком диапазоне?

MzMz 29 дек 2015 в 10:29

Первый вызов (500) — это просто иллюстрация того, как можно использовать классификатор, поэтому параметры взяты практически с потолка.

В зачет Kaggle уходит классификатор из автоподбора GridSearchCV — я там менял диапазоны и в более узких и в более широких параметрах, правда без особого фанатизма, это быстро надоедает :)

ternaus 29 дек 2015 в 13:01

Замечательно пишете.

Вы в других соревнованиях не участвовали? Титаник это хорошо, но просто. Было бы интересно почитать ваш разбор какого-нибудь более насыщенного соревнования.

ciiccii 29 дек 2015 в 16:23

Пример для xgboost у меня почему-то не работает. Падает с ошибкой:

XGBoostError: b'base_score must be in (0,1) for logistic loss'

на строке alg_xgb_grid.fit(train_data_scaled, train_data_munged[«Survived»])

В чём может быть ошибка?

MzMz 29 дек 2015 в 17:37

github.com/dmlc/xgboost/blob/master/src/learner/objective-inl.hpp#L104

могу только предположить, что либо train_data_munged[«Survived»] вышел за пределы, либо у классификатора есть какой-то незаданный параметр который в вашей версии библиотеки (у меня 0.4) установлен в другое значение.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий