VladislavSoren Jan 23 2022 at 20:04

Глушим аномалии в географических данных с помощью Pandas

3 min

3.6K

Data Engineering * Python * Machine learning *

From sandbox

Comments 2

vampirek Jan 24 2022 at 05:38

> по subvillage, т.к. это обеспечит большую точность в сравнении с регионом

А не лучше ли subvillage + region ? Судя по данным, деревня обозначена только текстом, и высоко вероятно, что в разных регионах будут деревни с одним и тем же наименованием?

VladislavSoren Jan 24 2022 at 05:49

Всего уникальных деревень в DataSet порядка 20 000 тысяч, поэтому не думаю что если повторения и есть, то их много)

Выбрал Subvillage, т.к. это даёт больше конкретики, однако с помощью регионов затем уже заполняю пропущенные координаты (т.к регион уже ни у одной водоколонки не пропущен), координаты которых, как я в конце написал, стали NaN.

Так что без Subvillage + Region не обошлось)