Pull to refresh

Comments 4

Хорошая статья, но покритикую формулировку:
Кроме этого, все шумовые признаки имеют высокую важность, сравнимую с двумя оригинальными

0.04 — достаточно низкая важность. Признак, во всех узлах, где на его основе происходит разбиение, снижает impurity на 4% от общего снижения по всем узлам и всем признакам. Если говорить о шумовых признаках, то есть более простой способ — пермутация значений в колонке исследуемого признака. Разница между качеством модели и средним качеством после нескольких пермутаций как раз дает примерную оценку важности. Этот способ часто используется в задачах с медицинскими данными.
Спасибо за интерес к статье!
0.04 – действительно низкая важность, но я смотрел по отношению к другим признакам. А если выбирать критерий для отсечения признаков, то его значение скорее всего будет неочевидным. Пермунтация значений действительно хороший метод, планирую его рассмотреть в следующей части
При анализе признаков в лесных моделях с их «feature_importances_» также стоит обратить внимание на алгоритм сборки этих значений. Обычно идёт или количество участий признака в разбиение на листья, или суммирование изменений информационного критерия при разбиении (что выглядит полезнее). В lightgbm, к примеру, можно это настроить через параметр «importance_type»: «split» — для первого варианта (стоит дефолтом), «gain» — для второго.
На сколько мне известно, в случайном лесе sklearn используется как раз суммирование изменений критерия. Про настройку этой фичи в lgbm не знал, спасибо!
Sign up to leave a comment.

Articles