Pull to refresh

Comments 10

Корреляционная показывает, какие параметры будут влиять на результат

Не понял

Тоже не совсем понял как интерпретировать результаты, отрицательные значения высокие по модулю тоже сильно влияют или только положительные?
корреляционные коэффициенты близкие к 1 и -1 показывают высокую линейную зависимость, разница лишь в направленности (прямая/обратная). 0 — отсутствие зависимости.

однако, для задачи классификации лучше использовать information value (IV) для определения предсказательной силы параметра. Поправьте, если я не прав.
Как-то внезапно оборвалась статья… Ощущение что это только шапка и первый параграф
Это какой-стеб, наверное.
Если класс клиента (уйдет, не уйдет) кодируется значениями 0 и 1, а, судя по dataframe.corr(), это так, то использование корреляционной матрицы тут вообще недопустимо: мало того что Вы притащили в анализ тестовые данные (корр. матрица по всему датафрейму) так еще и сравнили с искомым классом.

Корреляционная матрица на ранговых данных (пол, местоположение, наличие кредитной карты) должна использовать корреляцию Кендалла, а не Пирсона по умолчанию. Мало того невозможно найти корреляцию между ранговыми и непрерывными полями данных — это сути корреляции противоречит!

Корреляция не показывает, какие данные повлияют на результат, она используется для нахождения сильно линейно зависимых друг от друга признаков, которые, при использовании линейных моделей, начнут «перетягивать» на себя коэффициенты линейного уравнения, что снизит точность модели. Потому, обычно, один из таких признаков исключают.

А в целом, статья непонятна начинающему, не имеет объяснений — Вы даже классификатор не описали!!, оперирует неверными понятиями и учит плохому. Дети, не делайте так.
Корреляционная матрица на ранговых данных (пол, местоположение, наличие кредитной карты)...

Какие же пол и наличие кредитной карты ранговые данные? Это номинальные показатели.

Согласен, недосмотрел.
Для номинальных переменных используются критерии сходства на базе теста хи-квадрат.
мало того что Вы притащили в анализ тестовые данные

А что тут плохого? Вы же не модель строите, чтобы не строить корреляционную матрицу по всему датасету.
dataframe['Geography'].replace(«France»,1,inplace= True)
dataframe['Geography'].replace(«Spain»,2,inplace = True)
dataframe['Geography'].replace(«Germany»,3,inplace=True)
— поменяйте Испанию с Германией и почувствуйте разницу.
Совершенно неправильно заменять наименование страны на его «номер». Ну, почему у Вас «Германия» оказалась больше, чем «Испания», а «Испания» больше «Франции»? А правильно из одного признака сделать столько логических признаков, сколько есть разных стран. Попробуйте, наверняка результат сразу улучшится.
Sign up to leave a comment.

Articles