born_2fuck Oct 27 2017 at 22:31

Хронология уровня CO в атмосфере США (решение задачи Kaggle с помощью Python+Feature Engineering)

5 min

6.6K

Big Data*Python*Data visualization*

Tutorial

+11

Comments 16

mouze1976 Oct 28 2017 at 06:48

Хотелось бы посмотреть на весь код и исходные данные.

born_2fuck Oct 28 2017 at 10:59

Могу вам скинуть

Mn0g0kratn0Ub1ennbIyNaGT Oct 28 2017 at 18:37

Что-то пропущено? После импорта библиотек сразу проверка данных. А где загрузка данных? Скиньте уж и мне тогда. Спасибо.

born_2fuck Oct 28 2017 at 18:38

ну если так прям критично)

data = pd.read_csv('.../epa_co_daily_summary.csv')
data.head(3)

Mn0g0kratn0Ub1ennbIyNaGT Oct 28 2017 at 18:48

А можно дать ссылку на исходники и данные?

born_2fuck Oct 28 2017 at 18:49

Скиньте вашу почту в лс, пожалуйста

Mn0g0kratn0Ub1ennbIyNaGT Oct 28 2017 at 18:54

«сразу можно выявить 2 положительные корреляции с целевым параметром: ['arithmetic_mean'] и ['first_max_hour'], ['first_max_hour'].» — опечатка?

Mn0g0kratn0Ub1ennbIyNaGT Oct 28 2017 at 18:58

data['county_name'] = data['county_name'].factorize()[0] — зачем дважды повторяется?

Как я понимаю, судя по вот этой строчке
data['address'] = data['address'].factorize()[0]
модель никак не учитывает географическую близость или удалённость измерений?

born_2fuck Oct 28 2017 at 19:07

с ['county_name'] нужен int, а не категориальный признак.

Mn0g0kratn0Ub1ennbIyNaGT Oct 28 2017 at 22:03

Я имел в виду, что преобразование адреса в координатты могло бы дать дополнитеьную ценную характеристику, которая показала бы зависимости между близко лежащими точками замеров. А так этот int в общем-то смысловой нагрузки не несёт.
Ещё соображение — 2 параметра имеют корреляцию 1 (observation-count и observation_percent) — один можно выкинуть без потери качества, нет?
Кроме того, имея координаты можно за ненадобностью выкинуть несколько геогрфических характеристик — штат, город, сounty

Mn0g0kratn0Ub1ennbIyNaGT Oct 28 2017 at 22:18

Ещё не понял идею с добавлением аж пяти характеристик — сезон и 4 времени года. Не достаточно ли было просто ввести номер месяца?
Аналогично — зачем каждый год заводить как отдельную характеристику? Почему не ограничиться одной колонкой — номер_года?

born_2fuck Oct 28 2017 at 22:21

Я согласен, но тут думаю дело вкуса, я решил распарсить на сезоны и года, мог бы еще отдельно и на месяца + просто из интереса решил посмотреть корреляции между целевой переменной и каждым отдельным годом.

tunelix Oct 29 2017 at 13:49

Расскажите какое у вас железо, и насколько быстро подобная выборка там ворочается

born_2fuck Oct 29 2017 at 18:55

Macbook Pro 13(2015) 16GB, i-7 3,1Hz. При использовании простой линейной регрессии обучение занимало минут 40. Random Forest в зависимости от глубины и количества деревьев от 20 минут до 6-7 часов.

Mn0g0kratn0Ub1ennbIyNaGT Oct 29 2017 at 17:58

Поигрался с моделью и подведу итог.
1. Спасибо за пример и библиотеку mpl_toolkits.basemap — буду пользоваться
2. По части упорядочения характеристик (feature engineering) решение спорное
— не убраны характеристики с единичной корреляцией, не несущие никакой дополнительной информации, лишь перегружающие и без того огромный набор данных
— оставлены многочисленные дублирующие признаки — если есть координаты, то все прочие географичесие признаки — адрес, код кантона (не понял что это в США), имя кантона, код города, имя города, штат, номер сайта, имя сайта… — не несут никакой дополнительной информации, лишь перегружают набор данных
— созданы избыточные временные признаки — времена года и сезон, которые также не несут никакой дополнительной информации, лишь перегружают набор данных
— выделение каждого года в отдельный признак (+26 измерений в и без того распухшем пространстве!) не только сделали набор данных крайне тяжёлым, но это ещё и вредно. Т.к. в этом случае модель не видит, что 2007 год следует за 2006, для неё это просто независимые координаты, т.е. утрачена часть информации, которая безусловно была бы использована моделью.
Для анализа данных, может, и полезно, но для вычислений вредно. Итого, исчерпав всю память мой ноут сдох, поэтому повторить эксперимент не удалось.
Ну и последнее, я бы использовал для данной задачи нейронную сеть, а не линейную регрессию.
Не претендую на истину в конечной инстанции, в порядке обмена мнениями.
Ещё раз спасибо.

vassabi Oct 30 2017 at 10:26

> код кантона (не понял что это в США), имя кантона,

это скорее всего county — «графства», аналоги областей и районов.