Pull to refresh

Comments 11

«Ещё можно добавить бинарный признак: выходной день или нет» — не лучше ли использовать номер дня в неделе? Тогда, например, пятница будет явно видна, а не теряться среди прочих рабочих дней.
Не лучше. Зависимость от дней недели явно нелинейная и сильно зависит от способа индексации дней недели. Можно использовать упомянутый OneHotEncoding, создав 7 новых признаков:
пн: (1,0,0,0,0,0,0)
вт: (0,1,0,0,0,0,0)

вс: (0,0,0,0,0,0,1)
не факт
смотря куда данные. Если дисижн, то номер дня недели может и лучше.
Но для непрерывных отображений вы правы.
Что такое дисижн?
Decision Tree имелся ввиду, полагаю. Дерево принятия решений, где может стоять вопрос «День недели находится между 1-3?»(1 — понедельник, 2 — вторник, 3 — среда и так далее). Если да, то пойдём налево, нет — направо. Допустим, да. Тогда следующий вопрос «День недель 1-2?» нет, идём направо и дальше вопросы по другим атрибутам, например. Ну это простой пример. Вот простой пример из сетиimage
Вот, что меня смущает. Признак «день недели» обычно рассматривают как категориальный (ссылки в комменте ниже). Понятно, что скорее всего, для таких глупо использовать в дереве решений вопросы типа «ID города < 3?».
Но день недели может являться и числовым признаком. Как перенумеровать дни? Можно начать с понедельника, можно с воскресенья. Но все равно два соседних дня будут для модели фактически противоположны, то есть иметь индексы, различающиеся на 6. Можно поступить как с часами в этой статье, «завернув» дни недели в круг. Но сначала нужно выяснить, действительно ли день недели так важен, оказывает ли влияние на предсказание, иначе можно получить оверфит.
Безусловно. Но тут статья просто про фичи и их генерацию, вопрос овервитинга не рассматривается. А так-то понятное дело)
увлекаться ван-хот-энкодингом нужно осторожно. А то набор признаков может распухнуть до несуразных размеров. Например, если вместо номера дня в году использовать такой подход, число входных признаков вырастет в 366 раз.
А линейность зависимости важна далеко не во всех методах машинного обучения.
С разрастанием признаков согласен. Но день недели обычно рассматривают как категориальный признак. Например: 1 или 2. Впрочем, подход зависит от целевой переменной.

Все кто занимаются анализом данных рано или поздно приходят к пониманию, что золото в правильном извлечении признаков.
Я не так давно писал похожую статью. Общий смысл тот же самый.
Подготовка данных это не просто важная часть построения модели. Она важнейшая.
Про эту часть не расскажут на курсах и не напишут в книгах. Что бы понять как это работает нужен реальный опыт. Конкурсные задачи его не дадут, т.к. использование готовых датасетов не способствует прокачке этого навыка.
К вашей статье добавил бы, что даже при качественной проработке признаков использование сильных алгоритмов предпочтительнее слабых.
Ну то есть даже если вы идеально проработали признаки, логистическая регрессия всё равно может быть хуже просто потому что ей не хватает нелинейности.
Но посыл вашей статьи — уделить больше внимания признакам чем выбору модели совершенно правильный.

UFO just landed and posted this here
Sign up to leave a comment.