Pull to refresh

Comments 2

Вы почти не раскрыли (может, опосредованно об этом было сказано в п.5) идею того, что пропуски можно заполнять усредненным значением по кластеру: т.е. сперва вы разбиваете датасет на кластеры, потом выбираете, каким средним пользоваться (обычное, усеченное, медиана или даже мода) и им заполняете. Тогда вы сможете немного побороться с тем, что посчитаете это усреднение не по всему датасету, а только по тем соседям, которые к этому кластеру относятся. И вот эта идея - часто гораздо более аккаратная по отношению к пропускам, нежели бездумное .fillna() по всем данным.

Sign up to leave a comment.

Articles