LexTalionis Mar 16 2013 at 21:53

Препроцессинг данных и анализ моделей

8 min

33K

Data Mining * Python * Programming *

+23

Comments 15

UFO landed and left these words here

LexTalionis Mar 17 2013 at 08:11

Вы будете смеяться, но мы о них не знали, ибо еще студенты. В следующий раз построю, благо и в нашей библиотеке он есть, далеко ходить не надо.

UFO landed and left these words here

235 Mar 17 2013 at 00:03

Нас интересует самый последний столбец. Этот столбец означает вероятность того, что наш коэффициент равен нулю, то есть не играет роли в итоговой модели.

Как понимаю с таблицы, должно быть наоборот — если коэффициент равен нулю, оставляем.

Можно указать параметры запуска glm функции? Или еще лучше, как использовать scikits.statsmodels для этой цели.

Очень отстраненный комментарий:


def avg(x):
    s = 0
    ...

— в данном случае у вас будет правильный результат, поскольку на вход подаются только числа с плавающей запятой. В случае, если вы попытаетесь этой функцией посчитать среднее целочисленного ряда, получится ерунда. Поправите на s=0.0 и деление всегда будет ожидаемым.

LexTalionis Mar 17 2013 at 08:08

Параметры дефолтные, в документации (конец статьи) есть описание.
Я сначала пытался использовать statsmodels, но потом увидел, что она требует версию питона 2.7, а у меня все пишется под 3.2, так что я выбрал удобную альтернативу из sklearn.

Про деление постоянно забываю, спасибо.

LexTalionis Mar 17 2013 at 08:55

Если коэффициент в линейной модели равен нулю, то его нету(зачем добавлять ноль?). А вот вероятность того, что коэффициент равен нулю должна быть чем меньше, тем лучше (для коэффициента). в последнем столбце указана эта вероятность

Cekory Mar 17 2013 at 05:42

У Вас некоторые переменные номинальные (например, famges — это, судя по описанию, семейное положение), а Вы их вводите в модель, как интервальные. Это довольно грубая ошибка, по-крайне мере для логистической модели. В случае R в описании для glm надо было писать as.factor(famges), а не просто famges.

LexTalionis Mar 17 2013 at 09:04

Спасибо, мы этот момент банально проворонили. мы сейчас перестроили модель с правильным подходом к факторам, но точность получилась та же самая, что и раньше. только значимости переменных несколько изменились. Нам в этом плане несколько повезло с видом факторов, но в следующий раз мы такое не пропустим :)

Если бы среди факторных переменных действительно было чтото важное и значимое (для модели), деревья решений смогли бы поймать эти эффекты по построеннию. И мы бы это заметили (и, возможно, даже нашли бы этот косяк).

Cekory Mar 17 2013 at 11:03

Насчет точности — я поглядел массив, там кредит выдают в 70% случаев. То есть предсказание-константа: «выдавать кредит» даёт 70% предикативной точности, что практически на равных конкурирует со всеми сложными методами, которые Вы использовали. Наверное, в таких случаях лучше оптимизировать не точность предсказания, а какие-нибудь другие метрики, типа precision или recall.

Shandec Mar 17 2013 at 07:09

Мне тема интересна, но в начале статьи о заявителях и кредитах, потом о каких-то hohe и alter, потом — вот! статистика 73%!
это круто, но о чем все вообще? я могу, конечно, перевести все слова, прочитаю, что же такое GLM, kNN и пойму, о чем речь, но думаю нужно писать так, чтобы любому при прочтении был понятен смысл. Если это статья в математический журнал — все в порядке.

AndrewFoma Mar 17 2013 at 07:11

поддерживаю, подробностей бы больше, пояснений.

LexTalionis Mar 17 2013 at 07:57

Спасибо. Теперь в списке, где перечисляются алгоритмы, есть ссылки на описания, в конце добавил документацию, должно быть попроще теперь.

mcshadow Mar 17 2013 at 09:59

Не знаю как остальным, но к примеру мне общие слова ни о чем не говорят, а ссылки на алгоритмы тем более. В вашей статье я ожидал увидеть больше математики и больше объяснений, на интуитивно понятном уровне, конкретных используемых алгоритмов, для анализа выбранной вам задачи. В ней нет ни того ни другого. Я очень рад что вы так хорошо в этом разбираетесь, но наверное статья писалась о том чтобы мы по её ходу действия могли разобраться вместе с вами. Очень жаль, что я этого сделать не смог, тупею наверно, но все равно спасибо.

Stas911 Mar 17 2013 at 10:03

Статья интересная, но если бы вы перевели названия на английский и обновили с учетом комментов то было бы вообще здорово.

ltwood Mar 17 2013 at 10:41

Вот здесь лежат данные по сходной задаче и ее описание, причем там есть тестовая выборка для валидации. А тут есть ответы для тестовой выборки и top-20 результатов конкурса. Было бы интересно посмотреть, как используемые Вами методы работают в сравнении с теми, которые использовали конкурсанты.