Спасибо за статью. Идея хорошая, но для яркой демонстрации эффекта выбор пары датасет–модель, на мой взгляд, не очень удачный: при 75-кратной разнице в объеме данных разница в accuracy меньше одного процентного пункта. Я бы рекомендовал взять модель попроще или датасет посложнее. Либо добавить тесты с ещё меньшим объемом данных: 300, 100, 30, 10 сэмплов, например.
Интересно было бы сравнить полученные модели с градиентным бустингом, случайным лесом или даже простым деревом решений. Немонотонность таргета по фичам не проблема для этих моделей, поэтому их качество не должно сильно улучшиться от описанных преобразований. Последние актуальны для линейной и логистической регрессий, где классы разделяются простейшим образом — гиперплоскостью
Спасибо за статью. Идея хорошая, но для яркой демонстрации эффекта выбор пары датасет–модель, на мой взгляд, не очень удачный: при 75-кратной разнице в объеме данных разница в accuracy меньше одного процентного пункта. Я бы рекомендовал взять модель попроще или датасет посложнее. Либо добавить тесты с ещё меньшим объемом данных: 300, 100, 30, 10 сэмплов, например.
Отличный гайд. Спасибо!
Спасибо за шикарную статью!
Интересно было бы сравнить полученные модели с градиентным бустингом, случайным лесом или даже простым деревом решений. Немонотонность таргета по фичам не проблема для этих моделей, поэтому их качество не должно сильно улучшиться от описанных преобразований. Последние актуальны для линейной и логистической регрессий, где классы разделяются простейшим образом — гиперплоскостью