Comments 2
> по subvillage, т.к. это обеспечит большую точность в сравнении с регионом
А не лучше ли subvillage + region ? Судя по данным, деревня обозначена только текстом, и высоко вероятно, что в разных регионах будут деревни с одним и тем же наименованием?
Всего уникальных деревень в DataSet порядка 20 000 тысяч, поэтому не думаю что если повторения и есть, то их много)
Выбрал Subvillage, т.к. это даёт больше конкретики, однако с помощью регионов затем уже заполняю пропущенные координаты (т.к регион уже ни у одной водоколонки не пропущен), координаты которых, как я в конце написал, стали NaN.
Так что без Subvillage + Region не обошлось)
Sign up to leave a comment.
Глушим аномалии в географических данных с помощью Pandas