Pull to refresh

Comments 12

Возьмем тестовый набор данных (Train)

Вообще-то это набор Titanic
Да это верно, но поскольку данные я загружал прямо из пакета как «agaricus.train» я написал «Train» а не «Titanic». На Kaggle этот набор, конечно, же известен как «Titanic» так что извиняюсь за некоторую путаницу.
Не увидел в статье логистической регрессии. Вы путайте понятия.
Эта статья описывает решение задачи логистической регрессии с помощью XGboost с нелинейным бустером. Если Вы обратите внимание на параметризацию модели, Вы увидите назначение модели. У данного метода есть ряд преимуществ, которые здесь рассматриваются.
Не встречал такого понятия, как задача логистической регрессии. Есть задача классификации, которая может решаться лог. регрессией.
То что, вы увидели «binary:logistic», совсем не означает что это логистическая регрессия, просто авторы решили это так назвать.
Если мне не изменяет память, то в теории машинного обучения это называется logitboost, где всеголишь используется logistic loss.
Да, здесь есть общие моменты, но смысл совсем разный, никто не называет проблемы классификация с помощью бустинга на деревьях лог. регрессиями.
Выходит что называют. Специально зашел по ссылке и скопировал описание из github.com —
«binary:logistic» --logistic regression for binary classification, output probability
То, что вы показывайте, это всего лишь функция потерь, которая будет минимизироваться. Да она названа неудачно, но поверьте, даже сам Тянки Чен не будет называть классификацию лог. регрессией. Не стоит придавать новый смысл термину, которому уже более 50 лет.

С большой натяжкой его можно здесь употреблять, но так никто не делает, чтобы не вводить людей в заблуждение. Для эксперимента можете поискать статьи на arxiv или просто погуглить употребление logistic regression, а ещё лучше погуглить gbm и LR сразу вместе.
Нигде в статье не написано, что в gbm реализована логит-модель. В статье есть ссылки на gbm и детали ее реализации. Я не думаю, что если человек прочтет внимательно статью то будет введен в заблуждение. т.к. все материалы подкреплены практической реализацией, которую можно при желании проверить.
Нигде в статье не написано, что в gbm реализована логит-модель.

Вы сами-то свою статью читали?! Вот цитаты:


В этой статье речь пойдет о логистической регрессии и ее реализации в одном из наиболее производительных пакетов машинного обучения "R" — "XGboost"

или


Сразу оговорюсь, что в "R" существует несколько линейных функций для обучения логит-модели, таких как "glm" из стандартного пакета функций, но здесь мы рассмотрим более продвинутый вариант, имплементированный в пакете "XGboost".
Спасибо за комментарий. Я отредактирую, дабы больше не возникало путаницы.

Короче любой скрипт на Kaggle расскажет вам больше про Xgboost в R. И на более-менее реальных данных, а не избитом Титанике. Если реально полезную статью писать — это надо разобраться, как чудо-зверь работает (в офиц документации неплохо рассказывается), что стоит за всеми этими параметрами в Xgboost и как их настраивать (hyperopt, sacred).
А так по первой же попавшейся ссылке больше узнаешь.

Sign up to leave a comment.