Пост @Rovennna — Блог компании Криптонит

17 фев в 16:525.3K

Блог компании КриптонитИскусственный интеллект

Деревья решений и случайный лес

Один из методов машинного обучения называется «дерево решений». Он эффективен для задач классификации и регрессии, с которыми чаще всего сталкиваются при анализе изображений и текстов.

Деревья решений названы так потому, что похожи на древовидные диаграммы. Каждый узел в них соответствует функции (проверяющей какое-либо условие), а исходящие из узлов ветви — это вероятные результаты проверки.

Структуры деревьев максимально наглядны и позволяют проследить ход принятия решений. Но деревья не отличаются стабильностью: даже лёгкие изменения в данных могут привести к существенным изменениям в структуре дерева. Поэтому они часто страдают от переобучения.

Чтобы устранить эти недостатки, был разработан более продвинутый метод машинного обучения на основе деревьев решений — случайный лес (random forest). Это ансамблевый метод машинного обучения, применяемый в основном для анализа медицинских данных, маркетинговых исследований и кредитного скоринга.

Случайный лес комбинирует предсказания нескольких деревьев решений, каждое из которых обучается на случайной подвыборке данных.

В задачах регрессии случайный лес делает предсказание путём усреднения результатов всех деревьев, а в задачах классификации он выбирает вариант, к которому пришло большинство деревьев.

Такой подход повышает точность предсказаний и снижает влияние эффекта переобучения. Однако он требует в разы больше ресурсов и теряет лёгкость интерпретации.

Публикации

Информация