Pull to refresh

Comments 10

Действительено. Не заметил, пардоньте.

UFO just landed and posted this here
Какие из перечисленных пунктов, на ваш взгляд, можно автоматически идентифицировать?
UFO just landed and posted this here
Вручную подготовку данных делать нужно и полезно. Начинаешь видеть, что внутри. И особенно это важно в том, как убирать «выбросы», например. Выброс выбросу рознь: если он не является артефактом неточного изменения, то он является характеристикой объекта выборки и, значит, может быть нужен в дальнейшем моделировании.

Приведу пример с линейной регрессией, когда выбрасывание данных, похожих на выбросы, будет вредно. При оценке коэффициентов нам интересны стандартная ошибка коэффициентов и дисперсия остатков. Можно строить интервал прогноза. И в случае, если мы выкинем выбросы (например, удалим 0,01 и 0,99 квантили) интервал прогноза и доверительный интервал модели будут уже, чем с выбросами. Потом этом может плохо сказаться на качество работы модели на новых данных. Вы будете думать, что в 90%-интервал попадает 90% данных, а туда будет попадать меньше.
Не понимаю, откуда тут повара набежали, и почему у статьи так мало плюсов.

Я Андроид разработчик, столкнулся с задачей подготовки данных на новом проекте. Статья — коротко, по делу, и с визуализацией. Спасибо за труд!
Sign up to leave a comment.

Articles