Comments 15
UFO just landed and posted this here
Нас интересует самый последний столбец. Этот столбец означает вероятность того, что наш коэффициент равен нулю, то есть не играет роли в итоговой модели.
Как понимаю с таблицы, должно быть наоборот — если коэффициент равен нулю, оставляем.
Можно указать параметры запуска glm функции? Или еще лучше, как использовать scikits.statsmodels для этой цели.
Очень отстраненный комментарий:
def avg(x):
s = 0
...
— в данном случае у вас будет правильный результат, поскольку на вход подаются только числа с плавающей запятой. В случае, если вы попытаетесь этой функцией посчитать среднее целочисленного ряда, получится ерунда. Поправите на s=0.0 и деление всегда будет ожидаемым.
0
Параметры дефолтные, в документации (конец статьи) есть описание.
Я сначала пытался использовать statsmodels, но потом увидел, что она требует версию питона 2.7, а у меня все пишется под 3.2, так что я выбрал удобную альтернативу из sklearn.
Про деление постоянно забываю, спасибо.
Я сначала пытался использовать statsmodels, но потом увидел, что она требует версию питона 2.7, а у меня все пишется под 3.2, так что я выбрал удобную альтернативу из sklearn.
Про деление постоянно забываю, спасибо.
0
Если коэффициент в линейной модели равен нулю, то его нету(зачем добавлять ноль?). А вот вероятность того, что коэффициент равен нулю должна быть чем меньше, тем лучше (для коэффициента). в последнем столбце указана эта вероятность
0
У Вас некоторые переменные номинальные (например, famges — это, судя по описанию, семейное положение), а Вы их вводите в модель, как интервальные. Это довольно грубая ошибка, по-крайне мере для логистической модели. В случае R в описании для glm надо было писать as.factor(famges), а не просто famges.
0
Спасибо, мы этот момент банально проворонили. мы сейчас перестроили модель с правильным подходом к факторам, но точность получилась та же самая, что и раньше. только значимости переменных несколько изменились. Нам в этом плане несколько повезло с видом факторов, но в следующий раз мы такое не пропустим :)
Если бы среди факторных переменных действительно было чтото важное и значимое (для модели), деревья решений смогли бы поймать эти эффекты по построеннию. И мы бы это заметили (и, возможно, даже нашли бы этот косяк).
Если бы среди факторных переменных действительно было чтото важное и значимое (для модели), деревья решений смогли бы поймать эти эффекты по построеннию. И мы бы это заметили (и, возможно, даже нашли бы этот косяк).
0
Насчет точности — я поглядел массив, там кредит выдают в 70% случаев. То есть предсказание-константа: «выдавать кредит» даёт 70% предикативной точности, что практически на равных конкурирует со всеми сложными методами, которые Вы использовали. Наверное, в таких случаях лучше оптимизировать не точность предсказания, а какие-нибудь другие метрики, типа precision или recall.
+1
Мне тема интересна, но в начале статьи о заявителях и кредитах, потом о каких-то hohe и alter, потом — вот! статистика 73%!
это круто, но о чем все вообще? я могу, конечно, перевести все слова, прочитаю, что же такое GLM, kNN и пойму, о чем речь, но думаю нужно писать так, чтобы любому при прочтении был понятен смысл. Если это статья в математический журнал — все в порядке.
это круто, но о чем все вообще? я могу, конечно, перевести все слова, прочитаю, что же такое GLM, kNN и пойму, о чем речь, но думаю нужно писать так, чтобы любому при прочтении был понятен смысл. Если это статья в математический журнал — все в порядке.
+9
поддерживаю, подробностей бы больше, пояснений.
+1
Спасибо. Теперь в списке, где перечисляются алгоритмы, есть ссылки на описания, в конце добавил документацию, должно быть попроще теперь.
0
Не знаю как остальным, но к примеру мне общие слова ни о чем не говорят, а ссылки на алгоритмы тем более. В вашей статье я ожидал увидеть больше математики и больше объяснений, на интуитивно понятном уровне, конкретных используемых алгоритмов, для анализа выбранной вам задачи. В ней нет ни того ни другого. Я очень рад что вы так хорошо в этом разбираетесь, но наверное статья писалась о том чтобы мы по её ходу действия могли разобраться вместе с вами. Очень жаль, что я этого сделать не смог, тупею наверно, но все равно спасибо.
+2
Статья интересная, но если бы вы перевели названия на английский и обновили с учетом комментов то было бы вообще здорово.
0
0
Sign up to leave a comment.
Препроцессинг данных и анализ моделей