Comments 10
Фаршированные перцы без мяса? Хм…
UFO just landed and posted this here
Вручную подготовку данных делать нужно и полезно. Начинаешь видеть, что внутри. И особенно это важно в том, как убирать «выбросы», например. Выброс выбросу рознь: если он не является артефактом неточного изменения, то он является характеристикой объекта выборки и, значит, может быть нужен в дальнейшем моделировании.
Приведу пример с линейной регрессией, когда выбрасывание данных, похожих на выбросы, будет вредно. При оценке коэффициентов нам интересны стандартная ошибка коэффициентов и дисперсия остатков. Можно строить интервал прогноза. И в случае, если мы выкинем выбросы (например, удалим 0,01 и 0,99 квантили) интервал прогноза и доверительный интервал модели будут уже, чем с выбросами. Потом этом может плохо сказаться на качество работы модели на новых данных. Вы будете думать, что в 90%-интервал попадает 90% данных, а туда будет попадать меньше.
Приведу пример с линейной регрессией, когда выбрасывание данных, похожих на выбросы, будет вредно. При оценке коэффициентов нам интересны стандартная ошибка коэффициентов и дисперсия остатков. Можно строить интервал прогноза. И в случае, если мы выкинем выбросы (например, удалим 0,01 и 0,99 квантили) интервал прогноза и доверительный интервал модели будут уже, чем с выбросами. Потом этом может плохо сказаться на качество работы модели на новых данных. Вы будете думать, что в 90%-интервал попадает 90% данных, а туда будет попадать меньше.
Не понимаю, откуда тут повара набежали, и почему у статьи так мало плюсов.
Я Андроид разработчик, столкнулся с задачей подготовки данных на новом проекте. Статья — коротко, по делу, и с визуализацией. Спасибо за труд!
Я Андроид разработчик, столкнулся с задачей подготовки данных на новом проекте. Статья — коротко, по делу, и с визуализацией. Спасибо за труд!
Sign up to leave a comment.
Подготовка данных в Data Science-проекте: рецепты для молодых хозяек