Подготовка данных в Data Science-проекте: рецепты для молодых хозяек / Comments / Habr

TonyClifton Oct 8 2019 at 18:25

Фаршированные перцы без мяса? Хм…

openalex Oct 9 2019 at 07:46

Уоу-уоу, а как же бедро индейки на первом фото? Очень вкусно, кстати, получилось ;)

TonyClifton Oct 9 2019 at 07:50

Действительено. Не заметил, пардоньте.

darsus Oct 16 2019 at 07:31

Кто о чем :))

TonyClifton Oct 16 2019 at 10:31

А я — о главном! :-)

UFO landed and left these words here

darsus Oct 16 2019 at 07:30

Какие из перечисленных пунктов, на ваш взгляд, можно автоматически идентифицировать?

UFO landed and left these words here

Alexey_mosc Oct 29 2019 at 14:41

Вручную подготовку данных делать нужно и полезно. Начинаешь видеть, что внутри. И особенно это важно в том, как убирать «выбросы», например. Выброс выбросу рознь: если он не является артефактом неточного изменения, то он является характеристикой объекта выборки и, значит, может быть нужен в дальнейшем моделировании.

Приведу пример с линейной регрессией, когда выбрасывание данных, похожих на выбросы, будет вредно. При оценке коэффициентов нам интересны стандартная ошибка коэффициентов и дисперсия остатков. Можно строить интервал прогноза. И в случае, если мы выкинем выбросы (например, удалим 0,01 и 0,99 квантили) интервал прогноза и доверительный интервал модели будут уже, чем с выбросами. Потом этом может плохо сказаться на качество работы модели на новых данных. Вы будете думать, что в 90%-интервал попадает 90% данных, а туда будет попадать меньше.

Virtyoz Jun 14 2020 at 03:56

Не понимаю, откуда тут повара набежали, и почему у статьи так мало плюсов.

Я Андроид разработчик, столкнулся с задачей подготовки данных на новом проекте. Статья — коротко, по делу, и с визуализацией. Спасибо за труд!

Подготовка данных в Data Science-проекте: рецепты для молодых хозяек

Comments 10

Articles