Как стать автором
Обновить

Комментарии 4

Дмитрий, спасибо за статью, с удовольствием прочитала. Было интересно прочитать о том, какие методы есть для определения мультиколлинеарности) Я пока учусь и исследование признаков занимает огромное количество времени. Часто зависимости между признаками находятся логическим путем, например через знание предметной области. А вот находить зависимость между более, чем двумя параметрами без подробного изучения каждого признака - для меня было вопросом.

Рад, что статья была полезна. Успехов в изучении DS!

Для двух клик одинаковой длины, будем считать лучшей ту, для которой сумма MI, вычисленная для всех признаков клики, наибольшая. Конечно, здесь может использоваться и любая другая релевантная решаемой задаче мера, например, вычисленная с использованием дисперсионного анализа (ANOVA). 

Я правильно понимаю, что дисперсионный анализ здесь заключается в вычислении коэффициента детерминации R2? Я плохо знаком со статистикой, пытаюсь разобраться. Вот у нас есть несколько групп признаков. Мы пытаемся определить, какая группа лучше объясняет целевую переменную (кредитный скор). Я правильно понимаю, что мы делаем следующее:
1. выполняем регрессию отдельно для каждой группы признаков
2. в каждом случае вычисляем R2
3. выбираем группу признаков с максимальным R2
?

Можете пояснить, какое преимущество даёт использование метрики Mutual Information? Спасибо за статью.

Добрый день! Спасибо за проявленный интерес к статье!

Начну с ответа на второй ваш вопрос: нет, мы не строили регрессию и не вычисляли коэффициент детерминации с последующим отбором групп признаков. Возможно, у вас сложилось такое впечатление из-за того, что в статье говорится о предсказании непрерывной величины - вероятности дефолта. В действительности используется логистическая регрессия, которая традиционно применяется для решения задачи бинарной классификации, однако предсказанию метки класса предшествует определение вероятности. В нашем случае вероятности принадлежности классу 1. Для обучения модели используется таргет, принимающий два возможных значения: 1 - дефолт кредитного договора, 0 - отсутствие дефолта. Если бы мы знали вероятности дефолта для всех объектов из обучающей выборки, то возможно было бы построить регрессию, но, к сожалению это не так, и мы знаем лишь метку класса.

Ответ на первый вопрос: нет, дисперсионный анализ здесь не заключался в вычислении коэффициента детерминации. Сразу скажу, что мы не использовали ANOVA, а только лишь MI. Согласно определению, MI - это неотрицательная величина, показывающая зависимость между двумя переменными. Она равна нулю тогда и только тогда, когда две случайные величины независимы и принимает бОльшие значения в противном случае. В работе мы прибегали к ней дважды. Во-первых, на этапе feature selection, где она позволила оценить важность каждого из признаков в отдельности (с точки зрения определения таргета). Во-вторых, когда нужно было определить лучшую клику (лучше та, для который суммарный MI по всем признакам был больше). Отмечу, что эта величина может использоваться как для задачи классификации, так и регрессии. Более подробно можно почитать здесь (https://scikit-learn.org/stable/modules/feature_selection.html#univariate-feature-selection).

Что же касается упомянутой в статье ANOVA, то здесь предполагается вычисление F-статистики (ANOVA F-statistic), которое помогает оценить, насколько признак хорошо справляется с разделением классов. Отличный пример вычисления этого значения для "игрушечной" задачи бинарной классификации можно найти здесь (https://datascience.stackexchange.com/questions/74465/how-to-understand-anova-f-for-feature-selection-in-python-sklearn-selectkbest-w).

Наконец, отвечу на ваш третий вопрос. Имеет ли какие-либо преимущества использование MI для отбора признаков перед альтернативными вариантами, можно понять, на мой взгляд, решая конкретную задачу. То есть отбираем признаки, основываясь на двух разных подходах, строим модель, вычисляем интересующие нас метрики - делаем выводы. Посмотреть пример можно здесь (https://machinelearningmastery.com/feature-selection-with-numerical-input-data/)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий