CrazyElf27 янв в 19:09

Линейная регрессия, встряска рейтинга и первое место. Часть 1: Ёлочка, живи

Средний

10 мин

8.4K

Машинное обучение * Data Engineering * Python * Визуализация данных *

Туториал

+10

Комментарии 6

Aggle 28 янв в 00:00

Отлично, спасибо!
Пара моментов:
1) Не совсем понятно, как определялась смерть ёлочки (это тоже могло повлиять на зашумлённость графиков, в особенности в правой части) - когда она начала желтеть, когда с неё осыпалась четверть/половина/три четверти иголок, когда она превратилась в палку?
2) Есть ещё один фактор - использование всякого рода подкормок (обычный сахар, готовые подкормки из магазина и т. д.) - тоже вносит свою лепту.

CrazyElf 28 янв в 03:44

О, это отличный поинт. Скорее всего целевая переменная тоже шумная. Я совсем уж опустил детали, в задаче шла речь о том, чтобы показывать нашу ёлочку в телевизоре. В этом случае, конечно, есть некоторые более жёсткие границы "кондиционности" ёлочки, но они всё-равно размытые и шум будет.
Да, могут быть ещё какие-то факторы, которые нам не дали на вход. При работе с "большими данными" всегда есть надежда, что даже если нам дали не все данные, то в тех, которые дали, как-то косвенно есть информация и об отсутствующих данных и модель за это ухватится. Но с вашим примером я действительно не могу придумать, в какой фиче могла бы быть уже учтена подкормка.

Ну, собственно и поэтому всему тоже лучший скор по задаче получается не 1 (максимальное возможное для ROC AUC), а всего лишь 0.67 с копейками. Надо будет дополнить пост. Ох, чую правки никогда не закончатся ))

RHendrik 28 янв в 05:51

Я правильно понимаю это скорее MVP и проверка гипотезы чем полноценный проект? Потому что тут нет обработки данных, нет очистки и тд, а сразу переходите к обучению через логистическую регрессию. Ещё момент: как по мне лучше в разделе "Визуализация данных и анализ" показать матрицу корреляций чем несколько графиков по отдельности так будет выглядеть нагляднее, не обязательно все признаки (тогда наверное эта матрица будет слишком большая и не читаемая), можно 3-4 главных как у вас.

CrazyElf 28 янв в 12:13

Обработка и очистка будет дальше. Как и логистическая регрессия. Для пробного использования CatBoost никакая особая подготовка данных не нужна, поэтому её не было. CatBoost разбивает признаки на бины и умеет работать с категориальными фичами, поэтому ему ничего из того, что нужно для линейной регрессии, не нужно предварительно делать. И взаимодействие фич между собой он тоже сам подхватывает. Но как-раз от всего этого мне и приходится отказаться, чтобы модель заработала.
А в целом ну не знаю, если я получил лучший скор среди всех участников на этой задаче с помощью, как вы говорите, MVP, то чего же тогда можно было добиться с "полным проектом", интересно? ))
Матрицу корреляции да, надо бы показать, но у меня пока не получается "объять необъятное". И корреляция не покажет те особенности зависимостей целевой переменной, за которые я в итоге и зацепился, чтобы "вытащить" эту задачу.

Space_Surfer 21 фев в 12:38

Что-то вторая часть все никак не выходит) интересно было бы почитать )

CrazyElf 21 фев в 20:11

Спасибо за интерес. Меня это морально поддерживает )
Просто, как говорится, "то одно, то другое". То вдохновение кончилось, то здоровье, то свободное время.
Черновик то ещё тогда набросал, надо его доработать. Постараюсь взять себя в руки )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий