MaxRokatansky 3 ноя 2020 в 01:54

Как я регулярно улучшаю точность моделей обучения с 80% до 90+%

5 мин

11K

Блог компании OTUSПрограммирование*Big Data*Машинное обучение*

Перевод

+11

Комментарии 5

mixsture 3 ноя 2020 в 13:03

Слишком большое количество признаков может привести к тому, что ваш алгоритм переобучится, а слишком малое к тому, что он недообучится.

Это так не работает. Скорее даже работает наоборот. Большое число признаков требует намного бОльшую нейросеть, чтобы запомнить все правильные варианты вместо вычисления зависимостей (переобучение). А малое число признаков — как раз будет более склонно к переобучению.

imageman 3 ноя 2020 в 17:13

Большая нейросеть на 100к строках обучения быстрее переобучится, нежели маленькая нейросеть на 100к (пусть и с меньшим числом признаков). Но тут, конечно, нужно смотреть на то как и насколько мы уменьшаем. Я к тому, что избыточно большое число признаков может ухудшить результат и/или потребовать намного больше времени на обучение.

mixsture 3 ноя 2020 в 13:19

Случайный лес подразумевает создание нескольких деревьев решений с использованием наборов исходных данных. Затем модель выбирает режим (большинство) всех предсказаний каждого дерева решений.

Насколько я помню, чаще всего это работает по-другому. Тут идет в ход идея, что каждая следующая модель может использоваться для более тонкой подстройки предыдущей. Поэтому при наборе моделей в ансамбль — самая первая модель является как бы главной и получает наибольший коэффициент участия в результате, а все последующие имеют снижающиеся коэффициенты участия — т.е. как бы «корректируют» решения главной модели.
Нашел описание: AdaBoost из пакета scikit-learn

imageman 3 ноя 2020 в 17:25

Есть и так и так. Раньше использовали только усреднение (или голосование). Несколько лет назад начали использовать бустинг (XGBoost) — каждая следующая корректирует (улучшает) результаты предыдущей. В режиме регресии корректировки каждого следующего дерева (как правило) становятся всё меньше. В режиме классификации я наблюдал случаи когда даже сотое дерево делало довольно большие поправки (но там результирующая функция строится сложнее, нежели простое суммирование в регрессии).

В большинстве случаев бустинг лучше, но простое усреднение тоже иногда выигрывает.

Pornopatsan 4 ноя 2020 в 00:59

Ну AdaBoost работает как вы описали, а случайные лес так, как написано в посте
В это и отличие Бустинга от Бэггинга

Зарегистрируйтесь на Хабре, чтобы оставить комментарий