Pull to refresh

Comments 16

Хотелось бы посмотреть на весь код и исходные данные.
Что-то пропущено? После импорта библиотек сразу проверка данных. А где загрузка данных? Скиньте уж и мне тогда. Спасибо.
ну если так прям критично)
data = pd.read_csv('.../epa_co_daily_summary.csv')
data.head(3)
Скиньте вашу почту в лс, пожалуйста
«сразу можно выявить 2 положительные корреляции с целевым параметром: ['arithmetic_mean'] и ['first_max_hour'], ['first_max_hour'].» — опечатка?
data['county_name'] = data['county_name'].factorize()[0] — зачем дважды повторяется?

Как я понимаю, судя по вот этой строчке
data['address'] = data['address'].factorize()[0]
модель никак не учитывает географическую близость или удалённость измерений?
с ['county_name'] нужен int, а не категориальный признак.
Я имел в виду, что преобразование адреса в координатты могло бы дать дополнитеьную ценную характеристику, которая показала бы зависимости между близко лежащими точками замеров. А так этот int в общем-то смысловой нагрузки не несёт.
Ещё соображение — 2 параметра имеют корреляцию 1 (observation-count и observation_percent) — один можно выкинуть без потери качества, нет?
Кроме того, имея координаты можно за ненадобностью выкинуть несколько геогрфических характеристик — штат, город, сounty
Ещё не понял идею с добавлением аж пяти характеристик — сезон и 4 времени года. Не достаточно ли было просто ввести номер месяца?
Аналогично — зачем каждый год заводить как отдельную характеристику? Почему не ограничиться одной колонкой — номер_года?
Я согласен, но тут думаю дело вкуса, я решил распарсить на сезоны и года, мог бы еще отдельно и на месяца + просто из интереса решил посмотреть корреляции между целевой переменной и каждым отдельным годом.

Расскажите какое у вас железо, и насколько быстро подобная выборка там ворочается

Macbook Pro 13(2015) 16GB, i-7 3,1Hz. При использовании простой линейной регрессии обучение занимало минут 40. Random Forest в зависимости от глубины и количества деревьев от 20 минут до 6-7 часов.
Поигрался с моделью и подведу итог.
1. Спасибо за пример и библиотеку mpl_toolkits.basemap — буду пользоваться
2. По части упорядочения характеристик (feature engineering) решение спорное
— не убраны характеристики с единичной корреляцией, не несущие никакой дополнительной информации, лишь перегружающие и без того огромный набор данных
— оставлены многочисленные дублирующие признаки — если есть координаты, то все прочие географичесие признаки — адрес, код кантона (не понял что это в США), имя кантона, код города, имя города, штат, номер сайта, имя сайта… — не несут никакой дополнительной информации, лишь перегружают набор данных
— созданы избыточные временные признаки — времена года и сезон, которые также не несут никакой дополнительной информации, лишь перегружают набор данных
— выделение каждого года в отдельный признак (+26 измерений в и без того распухшем пространстве!) не только сделали набор данных крайне тяжёлым, но это ещё и вредно. Т.к. в этом случае модель не видит, что 2007 год следует за 2006, для неё это просто независимые координаты, т.е. утрачена часть информации, которая безусловно была бы использована моделью.
Для анализа данных, может, и полезно, но для вычислений вредно. Итого, исчерпав всю память мой ноут сдох, поэтому повторить эксперимент не удалось.
Ну и последнее, я бы использовал для данной задачи нейронную сеть, а не линейную регрессию.
Не претендую на истину в конечной инстанции, в порядке обмена мнениями.
Ещё раз спасибо.
> код кантона (не понял что это в США), имя кантона,

это скорее всего county — «графства», аналоги областей и районов.
Sign up to leave a comment.

Articles

Change theme settings