Pull to refresh
7
0
Дмитрий Охотников @DS_voyager

data scientist

Send message

Спасибо автору за статью! Отличное, на мой взгляд, изложение материала.

Добрый день! Спасибо за проявленный интерес к статье!

Начну с ответа на второй ваш вопрос: нет, мы не строили регрессию и не вычисляли коэффициент детерминации с последующим отбором групп признаков. Возможно, у вас сложилось такое впечатление из-за того, что в статье говорится о предсказании непрерывной величины - вероятности дефолта. В действительности используется логистическая регрессия, которая традиционно применяется для решения задачи бинарной классификации, однако предсказанию метки класса предшествует определение вероятности. В нашем случае вероятности принадлежности классу 1. Для обучения модели используется таргет, принимающий два возможных значения: 1 - дефолт кредитного договора, 0 - отсутствие дефолта. Если бы мы знали вероятности дефолта для всех объектов из обучающей выборки, то возможно было бы построить регрессию, но, к сожалению это не так, и мы знаем лишь метку класса.

Ответ на первый вопрос: нет, дисперсионный анализ здесь не заключался в вычислении коэффициента детерминации. Сразу скажу, что мы не использовали ANOVA, а только лишь MI. Согласно определению, MI - это неотрицательная величина, показывающая зависимость между двумя переменными. Она равна нулю тогда и только тогда, когда две случайные величины независимы и принимает бОльшие значения в противном случае. В работе мы прибегали к ней дважды. Во-первых, на этапе feature selection, где она позволила оценить важность каждого из признаков в отдельности (с точки зрения определения таргета). Во-вторых, когда нужно было определить лучшую клику (лучше та, для который суммарный MI по всем признакам был больше). Отмечу, что эта величина может использоваться как для задачи классификации, так и регрессии. Более подробно можно почитать здесь (https://scikit-learn.org/stable/modules/feature_selection.html#univariate-feature-selection).

Что же касается упомянутой в статье ANOVA, то здесь предполагается вычисление F-статистики (ANOVA F-statistic), которое помогает оценить, насколько признак хорошо справляется с разделением классов. Отличный пример вычисления этого значения для "игрушечной" задачи бинарной классификации можно найти здесь (https://datascience.stackexchange.com/questions/74465/how-to-understand-anova-f-for-feature-selection-in-python-sklearn-selectkbest-w).

Наконец, отвечу на ваш третий вопрос. Имеет ли какие-либо преимущества использование MI для отбора признаков перед альтернативными вариантами, можно понять, на мой взгляд, решая конкретную задачу. То есть отбираем признаки, основываясь на двух разных подходах, строим модель, вычисляем интересующие нас метрики - делаем выводы. Посмотреть пример можно здесь (https://machinelearningmastery.com/feature-selection-with-numerical-input-data/)

Рад, что статья была полезна. Успехов в изучении DS!

Information

Rating
Does not participate
Location
Казань, Татарстан, Россия
Date of birth
Registered
Activity

Specialization

Data Analyst, Data Scientist
From 70,000 ₽
Python
SQL
Git