Alexey_mosc Jun 29 2016 at 01:37

Методические заметки об отборе информативных признаков (feature selection)

39 min

22K

Align Technology, R&D corporate blogData Mining*R*

Tutorial

+18

Comments 6

Apatic Jun 29 2016 at 13:19

Спасибо за статью. Осилил пока половину, вечером дочитаю. ИМХО можно было смело части на две-три разделить :)

Alexey_mosc Jun 29 2016 at 13:34

Пожалуйста! Да, пожалуй, получилось много сразу. Но хорошо для сравнения полученной в ходе экспериментов информации и наложения на теорию. Если будут вопросы, задавайте.

dunordavind Jul 5 2016 at 13:33

Отличная статья, крайне интересно было прочесть. Поначалу, когда увидел тезис об использовании линейной модели для выбора предикторов, думал придется поспорить, но потом, вопрос был раскрыт очень качественно.

Про vif как показатель мультиколлинеарности, а так же lasso/en в этом контексте было бы тоже интересно посмотреть, впрочем статья и так огромная.

Спасибо.

Alexey_mosc Jul 10 2016 at 20:30

Спасибо! Некоторые моменты не раскрыл. Да, линейные модели с регуляризатором сильны. Думаю, что многие практические проблемы решаются линейно. Редко важно взаимодействие. А нелинейность это на практике вообще редкость. Но для академических целей эти вопросы затрагивались. Кроме того иногда это важно и на практике.

Если будут еще нюансы для для обсуждения — пишите.

dim2r Oct 30 2019 at 10:18

Недавно наталкивался на функцию y= a (1-x)^b, которую надо было подгонять под эспериментальные данные. Обнаружил, что оптимизация по a и b работают как-то странно. Можно найти самые оптимальные а и b, чтобы сумма квадратов отклонений была самой минимальной. Потом можно заметно изменить b и найти оптимальное а, но сумма квадратов отклонений от эксперимента почти не меняется.

Для интерполяции это не имеет большого значения, а вот для экстраполяции есть большая разница, так как b входит в степень. То есть когда есть всякие сильные зависимости и сингулярности, то стандартные методы могут плохо работать.

Alexey_mosc Oct 30 2019 at 13:16

Надо попробовать на синтетике. Но, вообще, статья не про подбор параметров, а про отбор входных переменных.