AndrewKarpovych Aug 5 2016 at 07:40

Решение задачи бинарной классификации в пакете машинного обучения «XGboost»

7 min

40K

Инфопульс Украина corporate blogR * Programming *

Tutorial

Recovery Mode

Comments 12

djinninia Aug 5 2016 at 08:31

Спасибо. Надо попробовать

YuryFedin Aug 5 2016 at 18:18

Возьмем тестовый набор данных (Train)

Вообще-то это набор Titanic

AndrewKarpovych Aug 5 2016 at 19:36

Да это верно, но поскольку данные я загружал прямо из пакета как «agaricus.train» я написал «Train» а не «Titanic». На Kaggle этот набор, конечно, же известен как «Titanic» так что извиняюсь за некоторую путаницу.

rushter Aug 6 2016 at 11:03

Не увидел в статье логистической регрессии. Вы путайте понятия.

AndrewKarpovych Aug 6 2016 at 12:26

Эта статья описывает решение задачи логистической регрессии с помощью XGboost с нелинейным бустером. Если Вы обратите внимание на параметризацию модели, Вы увидите назначение модели. У данного метода есть ряд преимуществ, которые здесь рассматриваются.

rushter Aug 6 2016 at 12:32

Не встречал такого понятия, как задача логистической регрессии. Есть задача классификации, которая может решаться лог. регрессией.
То что, вы увидели «binary:logistic», совсем не означает что это логистическая регрессия, просто авторы решили это так назвать.
Если мне не изменяет память, то в теории машинного обучения это называется logitboost, где всеголишь используется logistic loss.
Да, здесь есть общие моменты, но смысл совсем разный, никто не называет проблемы классификация с помощью бустинга на деревьях лог. регрессиями.

AndrewKarpovych Aug 6 2016 at 12:46

Выходит что называют. Специально зашел по ссылке и скопировал описание из github.com —
«binary:logistic» --logistic regression for binary classification, output probability

rushter Aug 6 2016 at 13:02

То, что вы показывайте, это всего лишь функция потерь, которая будет минимизироваться. Да она названа неудачно, но поверьте, даже сам Тянки Чен не будет называть классификацию лог. регрессией. Не стоит придавать новый смысл термину, которому уже более 50 лет.

С большой натяжкой его можно здесь употреблять, но так никто не делает, чтобы не вводить людей в заблуждение. Для эксперимента можете поискать статьи на arxiv или просто погуглить употребление logistic regression, а ещё лучше погуглить gbm и LR сразу вместе.

AndrewKarpovych Aug 6 2016 at 13:22

Нигде в статье не написано, что в gbm реализована логит-модель. В статье есть ссылки на gbm и детали ее реализации. Я не думаю, что если человек прочтет внимательно статью то будет введен в заблуждение. т.к. все материалы подкреплены практической реализацией, которую можно при желании проверить.

Roman_Kh Aug 6 2016 at 13:26

Нигде в статье не написано, что в gbm реализована логит-модель.

Вы сами-то свою статью читали?! Вот цитаты:

В этой статье речь пойдет о логистической регрессии и ее реализации в одном из наиболее производительных пакетов машинного обучения "R" — "XGboost"

или

Сразу оговорюсь, что в "R" существует несколько линейных функций для обучения логит-модели, таких как "glm" из стандартного пакета функций, но здесь мы рассмотрим более продвинутый вариант, имплементированный в пакете "XGboost".

AndrewKarpovych Aug 6 2016 at 13:35

Спасибо за комментарий. Я отредактирую, дабы больше не возникало путаницы.

yorko Aug 6 2016 at 15:04

Короче любой скрипт на Kaggle расскажет вам больше про Xgboost в R. И на более-менее реальных данных, а не избитом Титанике. Если реально полезную статью писать — это надо разобраться, как чудо-зверь работает (в офиц документации неплохо рассказывается), что стоит за всеми этими параметрами в Xgboost и как их настраивать (hyperopt, sacred).
А так по первой же попавшейся ссылке больше узнаешь.