Arhimagic Jan 18 2018 at 16:34

Feature Engineering, о чём молчат online-курсы

7 min

25K

VK corporate blogData Mining*Big Data*Machine learning*Studying in IT

+49

Comments 11

KiloLeo Jan 18 2018 at 19:47

«Ещё можно добавить бинарный признак: выходной день или нет» — не лучше ли использовать номер дня в неделе? Тогда, например, пятница будет явно видна, а не теряться среди прочих рабочих дней.

Fil Jan 18 2018 at 20:34

Не лучше. Зависимость от дней недели явно нелинейная и сильно зависит от способа индексации дней недели. Можно использовать упомянутый OneHotEncoding, создав 7 новых признаков:
пн: (1,0,0,0,0,0,0)
вт: (0,1,0,0,0,0,0)
…
вс: (0,0,0,0,0,0,1)

erwins22 Jan 18 2018 at 21:31

не факт
смотря куда данные. Если дисижн, то номер дня недели может и лучше.
Но для непрерывных отображений вы правы.

Fil Jan 18 2018 at 21:38

Что такое дисижн?

ZverArt Jan 19 2018 at 12:07

Decision Tree имелся ввиду, полагаю. Дерево принятия решений, где может стоять вопрос «День недели находится между 1-3?»(1 — понедельник, 2 — вторник, 3 — среда и так далее). Если да, то пойдём налево, нет — направо. Допустим, да. Тогда следующий вопрос «День недель 1-2?» нет, идём направо и дальше вопросы по другим атрибутам, например. Ну это простой пример. Вот простой пример из сети

Fil Jan 19 2018 at 13:39

Вот, что меня смущает. Признак «день недели» обычно рассматривают как категориальный (ссылки в комменте ниже). Понятно, что скорее всего, для таких глупо использовать в дереве решений вопросы типа «ID города < 3?».
Но день недели может являться и числовым признаком. Как перенумеровать дни? Можно начать с понедельника, можно с воскресенья. Но все равно два соседних дня будут для модели фактически противоположны, то есть иметь индексы, различающиеся на 6. Можно поступить как с часами в этой статье, «завернув» дни недели в круг. Но сначала нужно выяснить, действительно ли день недели так важен, оказывает ли влияние на предсказание, иначе можно получить оверфит.

ZverArt Jan 19 2018 at 14:00

Безусловно. Но тут статья просто про фичи и их генерацию, вопрос овервитинга не рассматривается. А так-то понятное дело)

KiloLeo Jan 19 2018 at 09:24

увлекаться ван-хот-энкодингом нужно осторожно. А то набор признаков может распухнуть до несуразных размеров. Например, если вместо номера дня в году использовать такой подход, число входных признаков вырастет в 366 раз.
А линейность зависимости важна далеко не во всех методах машинного обучения.

Fil Jan 19 2018 at 10:33

С разрастанием признаков согласен. Но день недели обычно рассматривают как категориальный признак. Например: 1 или 2. Впрочем, подход зависит от целевой переменной.

rotor Jan 19 2018 at 14:10

Все кто занимаются анализом данных рано или поздно приходят к пониманию, что золото в правильном извлечении признаков.
Я не так давно писал похожую статью. Общий смысл тот же самый.
Подготовка данных это не просто важная часть построения модели. Она важнейшая.
Про эту часть не расскажут на курсах и не напишут в книгах. Что бы понять как это работает нужен реальный опыт. Конкурсные задачи его не дадут, т.к. использование готовых датасетов не способствует прокачке этого навыка.
К вашей статье добавил бы, что даже при качественной проработке признаков использование сильных алгоритмов предпочтительнее слабых.
Ну то есть даже если вы идеально проработали признаки, логистическая регрессия всё равно может быть хуже просто потому что ей не хватает нелинейности.
Но посыл вашей статьи — уделить больше внимания признакам чем выбору модели совершенно правильный.

UFO just landed and posted this here