Как стать автором
Обновить

Комментарии 15

НЛО прилетело и опубликовало эту надпись здесь
Вы будете смеяться, но мы о них не знали, ибо еще студенты. В следующий раз построю, благо и в нашей библиотеке он есть, далеко ходить не надо.
НЛО прилетело и опубликовало эту надпись здесь
Нас интересует самый последний столбец. Этот столбец означает вероятность того, что наш коэффициент равен нулю, то есть не играет роли в итоговой модели.

Как понимаю с таблицы, должно быть наоборот — если коэффициент равен нулю, оставляем.

Можно указать параметры запуска glm функции? Или еще лучше, как использовать scikits.statsmodels для этой цели.

Очень отстраненный комментарий:
def avg(x): s = 0 ...
— в данном случае у вас будет правильный результат, поскольку на вход подаются только числа с плавающей запятой. В случае, если вы попытаетесь этой функцией посчитать среднее целочисленного ряда, получится ерунда. Поправите на s=0.0 и деление всегда будет ожидаемым.
Параметры дефолтные, в документации (конец статьи) есть описание.
Я сначала пытался использовать statsmodels, но потом увидел, что она требует версию питона 2.7, а у меня все пишется под 3.2, так что я выбрал удобную альтернативу из sklearn.

Про деление постоянно забываю, спасибо.
Если коэффициент в линейной модели равен нулю, то его нету(зачем добавлять ноль?). А вот вероятность того, что коэффициент равен нулю должна быть чем меньше, тем лучше (для коэффициента). в последнем столбце указана эта вероятность
У Вас некоторые переменные номинальные (например, famges — это, судя по описанию, семейное положение), а Вы их вводите в модель, как интервальные. Это довольно грубая ошибка, по-крайне мере для логистической модели. В случае R в описании для glm надо было писать as.factor(famges), а не просто famges.
Спасибо, мы этот момент банально проворонили. мы сейчас перестроили модель с правильным подходом к факторам, но точность получилась та же самая, что и раньше. только значимости переменных несколько изменились. Нам в этом плане несколько повезло с видом факторов, но в следующий раз мы такое не пропустим :)

Если бы среди факторных переменных действительно было чтото важное и значимое (для модели), деревья решений смогли бы поймать эти эффекты по построеннию. И мы бы это заметили (и, возможно, даже нашли бы этот косяк).
Насчет точности — я поглядел массив, там кредит выдают в 70% случаев. То есть предсказание-константа: «выдавать кредит» даёт 70% предикативной точности, что практически на равных конкурирует со всеми сложными методами, которые Вы использовали. Наверное, в таких случаях лучше оптимизировать не точность предсказания, а какие-нибудь другие метрики, типа precision или recall.
Мне тема интересна, но в начале статьи о заявителях и кредитах, потом о каких-то hohe и alter, потом — вот! статистика 73%!
это круто, но о чем все вообще? я могу, конечно, перевести все слова, прочитаю, что же такое GLM, kNN и пойму, о чем речь, но думаю нужно писать так, чтобы любому при прочтении был понятен смысл. Если это статья в математический журнал — все в порядке.
поддерживаю, подробностей бы больше, пояснений.
Спасибо. Теперь в списке, где перечисляются алгоритмы, есть ссылки на описания, в конце добавил документацию, должно быть попроще теперь.
Не знаю как остальным, но к примеру мне общие слова ни о чем не говорят, а ссылки на алгоритмы тем более. В вашей статье я ожидал увидеть больше математики и больше объяснений, на интуитивно понятном уровне, конкретных используемых алгоритмов, для анализа выбранной вам задачи. В ней нет ни того ни другого. Я очень рад что вы так хорошо в этом разбираетесь, но наверное статья писалась о том чтобы мы по её ходу действия могли разобраться вместе с вами. Очень жаль, что я этого сделать не смог, тупею наверно, но все равно спасибо.
Статья интересная, но если бы вы перевели названия на английский и обновили с учетом комментов то было бы вообще здорово.
Вот здесь лежат данные по сходной задаче и ее описание, причем там есть тестовая выборка для валидации. А тут есть ответы для тестовой выборки и top-20 результатов конкурса. Было бы интересно посмотреть, как используемые Вами методы работают в сравнении с теми, которые использовали конкурсанты.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории