Search
Write a publication
Pull to refresh
0
0
Виктор Каракчеев @vkarakcheev

Data Scientist

Send message

Спасибо за статью. Идея хорошая, но для яркой демонстрации эффекта выбор пары датасет–модель, на мой взгляд, не очень удачный: при 75-кратной разнице в объеме данных разница в accuracy меньше одного процентного пункта. Я бы рекомендовал взять модель попроще или датасет посложнее. Либо добавить тесты с ещё меньшим объемом данных: 300, 100, 30, 10 сэмплов, например.

В айфоне нет такой настройки

Интересно было бы сравнить полученные модели с градиентным бустингом, случайным лесом или даже простым деревом решений. Немонотонность таргета по фичам не проблема для этих моделей, поэтому их качество не должно сильно улучшиться от описанных преобразований. Последние актуальны для линейной и логистической регрессий, где классы разделяются простейшим образом — гиперплоскостью

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

Data Analyst, Data Scientist
Junior
Machine learning
Data Analysis
Python
Pandas
SQL