born_2fuck May 24 2017 at 09:18

Расчет оттока клиентов банка (решение задачи с помощью Python)

2 min

19K

Python * Entertaining tasks

From sandbox

Comments 10

hose314 May 24 2017 at 09:28

Корреляционная показывает, какие параметры будут влиять на результат

Не понял

Kwent May 24 2017 at 11:21

Тоже не совсем понял как интерпретировать результаты, отрицательные значения высокие по модулю тоже сильно влияют или только положительные?

Vodolazskyi May 25 2017 at 19:49

корреляционные коэффициенты близкие к 1 и -1 показывают высокую линейную зависимость, разница лишь в направленности (прямая/обратная). 0 — отсутствие зависимости.

однако, для задачи классификации лучше использовать information value (IV) для определения предсказательной силы параметра. Поправьте, если я не прав.

ElvinFox May 24 2017 at 12:59

Как-то внезапно оборвалась статья… Ощущение что это только шапка и первый параграф

fowler May 24 2017 at 13:30

Это какой-стеб, наверное.
Если класс клиента (уйдет, не уйдет) кодируется значениями 0 и 1, а, судя по dataframe.corr(), это так, то использование корреляционной матрицы тут вообще недопустимо: мало того что Вы притащили в анализ тестовые данные (корр. матрица по всему датафрейму) так еще и сравнили с искомым классом.

Корреляционная матрица на ранговых данных (пол, местоположение, наличие кредитной карты) должна использовать корреляцию Кендалла, а не Пирсона по умолчанию. Мало того невозможно найти корреляцию между ранговыми и непрерывными полями данных — это сути корреляции противоречит!

Корреляция не показывает, какие данные повлияют на результат, она используется для нахождения сильно линейно зависимых друг от друга признаков, которые, при использовании линейных моделей, начнут «перетягивать» на себя коэффициенты линейного уравнения, что снизит точность модели. Потому, обычно, один из таких признаков исключают.

А в целом, статья непонятна начинающему, не имеет объяснений — Вы даже классификатор не описали!!, оперирует неверными понятиями и учит плохому. Дети, не делайте так.

puff1n May 24 2017 at 21:13

Корреляционная матрица на ранговых данных (пол, местоположение, наличие кредитной карты)...

Какие же пол и наличие кредитной карты ранговые данные? Это номинальные показатели.

fowler May 25 2017 at 06:39

Согласен, недосмотрел.
Для номинальных переменных используются критерии сходства на базе теста хи-квадрат.

tomzarubin May 26 2017 at 09:35

мало того что Вы притащили в анализ тестовые данные

А что тут плохого? Вы же не модель строите, чтобы не строить корреляционную матрицу по всему датасету.

lash05 May 24 2017 at 16:18

dataframe['Geography'].replace(«France»,1,inplace= True)
dataframe['Geography'].replace(«Spain»,2,inplace = True)
dataframe['Geography'].replace(«Germany»,3,inplace=True)

— поменяйте Испанию с Германией и почувствуйте разницу.

Andy_U May 24 2017 at 20:35

Совершенно неправильно заменять наименование страны на его «номер». Ну, почему у Вас «Германия» оказалась больше, чем «Испания», а «Испания» больше «Франции»? А правильно из одного признака сделать столько логических признаков, сколько есть разных стран. Попробуйте, наверняка результат сразу улучшится.