Комментарии 11
пн: (1,0,0,0,0,0,0)
вт: (0,1,0,0,0,0,0)
…
вс: (0,0,0,0,0,0,1)
смотря куда данные. Если дисижн, то номер дня недели может и лучше.
Но для непрерывных отображений вы правы.
Но день недели может являться и числовым признаком. Как перенумеровать дни? Можно начать с понедельника, можно с воскресенья. Но все равно два соседних дня будут для модели фактически противоположны, то есть иметь индексы, различающиеся на 6. Можно поступить как с часами в этой статье, «завернув» дни недели в круг. Но сначала нужно выяснить, действительно ли день недели так важен, оказывает ли влияние на предсказание, иначе можно получить оверфит.
А линейность зависимости важна далеко не во всех методах машинного обучения.
Все кто занимаются анализом данных рано или поздно приходят к пониманию, что золото в правильном извлечении признаков.
Я не так давно писал похожую статью. Общий смысл тот же самый.
Подготовка данных это не просто важная часть построения модели. Она важнейшая.
Про эту часть не расскажут на курсах и не напишут в книгах. Что бы понять как это работает нужен реальный опыт. Конкурсные задачи его не дадут, т.к. использование готовых датасетов не способствует прокачке этого навыка.
К вашей статье добавил бы, что даже при качественной проработке признаков использование сильных алгоритмов предпочтительнее слабых.
Ну то есть даже если вы идеально проработали признаки, логистическая регрессия всё равно может быть хуже просто потому что ей не хватает нелинейности.
Но посыл вашей статьи — уделить больше внимания признакам чем выбору модели совершенно правильный.
Feature Engineering, о чём молчат online-курсы