NewTechAudit Apr 6 2021 at 12:11

Отбор признаков в задачах машинного обучения. Часть 1

12 min

50K

Python*Programming*Machine learning*

Comments 4

khmelkoff Apr 6 2021 at 17:39

Хорошая статья, но покритикую формулировку:

Кроме этого, все шумовые признаки имеют высокую важность, сравнимую с двумя оригинальными

0.04 — достаточно низкая важность. Признак, во всех узлах, где на его основе происходит разбиение, снижает impurity на 4% от общего снижения по всем узлам и всем признакам. Если говорить о шумовых признаках, то есть более простой способ — пермутация значений в колонке исследуемого признака. Разница между качеством модели и средним качеством после нескольких пермутаций как раз дает примерную оценку важности. Этот способ часто используется в задачах с медицинскими данными.

NewTechAudit Apr 7 2021 at 12:39

Спасибо за интерес к статье!
0.04 – действительно низкая важность, но я смотрел по отношению к другим признакам. А если выбирать критерий для отсечения признаков, то его значение скорее всего будет неочевидным. Пермунтация значений действительно хороший метод, планирую его рассмотреть в следующей части

IvanStrazov Apr 7 2021 at 12:39

При анализе признаков в лесных моделях с их «feature_importances_» также стоит обратить внимание на алгоритм сборки этих значений. Обычно идёт или количество участий признака в разбиение на листья, или суммирование изменений информационного критерия при разбиении (что выглядит полезнее). В lightgbm, к примеру, можно это настроить через параметр «importance_type»: «split» — для первого варианта (стоит дефолтом), «gain» — для второго.

NewTechAudit Apr 7 2021 at 12:40

На сколько мне известно, в случайном лесе sklearn используется как раз суммирование изменений критерия. Про настройку этой фичи в lgbm не знал, спасибо!

Show the best of all time