Комментарии / Профиль ivankondrakov / Хабр

Пользователь

Быстро, точно, градиентно: как наш подход к градиентному бустингу повышает эффективность моделей

ivankondrakov 2 июн 2023 в 13:44

Занулять, проставлять константное значение - нарушая взаимосвязи между признаками, таргетом и затем оценить влияние на целевую метрику - вполне можно. Но стоит отметить, что n-случайных перестановок внесет больше случайности, чем просто зануление и позволит сформировать вывод по итогам n-изменений. При этом значения по сути будут взяты из исходного распределения.

По поводу сохранения взаимосвязи при случайной перестановке. Мы предполагаем, что каждый фактор каким-либо образом вносит вклад в результат модели. Цель данного метода именно в нарушении зависимостей, то есть, если при перемешивании значений фактора скор не изменяется, либо улучшается, велика вероятность того, что данный фактор плохой, поэтому стоит его исключить.

Действительно, цель всего этого - отбор фичей. Тут стоит отметить, что при расчёте permutation importance количество факторов в модели не меняется, просто перемешиваются значения отдельных факторов. Получив результаты n перестановок значений каждого фактора, мы рассчитываем среднее изменение целевой метрики на уровне фактора, на основе этого принимаем решение - удалять фактор или пропустить его дальше.

Когда говорим про аггрегацию значений - то аггрегируем выбранную статистику, например PSI. А когда говорим про прокси-скор, то он выставляется в зависимости от значения PSI или другой статистики.

Посмотреть

Быстро, точно, градиентно: как наш подход к градиентному бустингу повышает эффективность моделей

ivankondrakov 2 июн 2023 в 13:43

Вы все верно отметили, действительно такие методы стоит применять на финальном этапе отбора, а их основная цель в том, чтобы окончательно очистить пространство признаков от шумов (от факторов, которые не влияют на итоговый результат), только уже рассматривая не отдельные факторы, а их комбинации.

Посмотреть

Бережем время, деньги, нервы: наш опыт улучшения справочника факторов для ML-моделей оценки риска

ivankondrakov 1 июн 2023 в 13:12

Спасибо, поправили.

Посмотреть

ML-пайплайн классических банковских моделей классификации

ivankondrakov 1 июн 2023 в 13:12

Добрый день! Спасибо, график поправили.

Посмотреть