Деревья решений и случайный лес
Один из методов машинного обучения называется «дерево решений». Он эффективен для задач классификации и регрессии, с которыми чаще всего сталкиваются при анализе изображений и текстов.
Деревья решений названы так потому, что похожи на древовидные диаграммы. Каждый узел в них соответствует функции (проверяющей какое-либо условие), а исходящие из узлов ветви — это вероятные результаты проверки.
Структуры деревьев максимально наглядны и позволяют проследить ход принятия решений. Но деревья не отличаются стабильностью: даже лёгкие изменения в данных могут привести к существенным изменениям в структуре дерева. Поэтому они часто страдают от переобучения.
Чтобы устранить эти недостатки, был разработан более продвинутый метод машинного обучения на основе деревьев решений — случайный лес (random forest). Это ансамблевый метод машинного обучения, применяемый в основном для анализа медицинских данных, маркетинговых исследований и кредитного скоринга.
Случайный лес комбинирует предсказания нескольких деревьев решений, каждое из которых обучается на случайной подвыборке данных.
В задачах регрессии случайный лес делает предсказание путём усреднения результатов всех деревьев, а в задачах классификации он выбирает вариант, к которому пришло большинство деревьев.
Такой подход повышает точность предсказаний и снижает влияние эффекта переобучения. Однако он требует в разы больше ресурсов и теряет лёгкость интерпретации.