Как стать автором
Обновить

Комментарии 6

Осталось 108 необработанных значений. Их добиваем вручную, иногда обращаясь за помощью в Google.
… 'КГЫ': 'KGZ', ...
Разве это не «RUS» в неправильной раскладке?
Ой! Наверное, вы правы! Недогуглил.

Спасибо за труд.
Почему в таблице замен datahub.io записи NaN соответствует Taiwan?

Ну в исходных данных значение отсутствует. Почему — это вопрос к авторам с datahub. Собственно NaN, потому что так интерпретировалось это пустое значение при конвертации из csv в pandas dataframe. Спасибо.
Ну вы, ребят, даете. Там же все данные открыты по API, обращаетесь и получаете красивый json, который, конечно может поменяться в любой момент, но скорее всего более стабильный к изменениям чем html, который вы большую часть статьи парсите ;). И еще подсказка, в результатах есть поле ProfileUrl, которое является указанием на профайл спортсмена и там уже приведенный пол, имя и так далее. Не везде, но в абсолютном большинстве случаев — это уберегло бы вас от нормализации на своей стороне. Потому что она понятное дело тоже делается, просто в протоколах гонок я оставляю оригинальные названия, но для определения профайла, конечно, тоже вожусь с транслитерацией и тем, что Наталья и Наталия — это разные имена, но на английском будут одинаковыми, ну и там еще оч. много разного ;)
Спасибо. Теперь буду знать. На самом деле когда я начинал, я толком не представлял, что хочу получить в итоге. Все это было больше упражнение, и скраппинг и парсинг — важная его часть. К тому же, я точно не думал, что потребуется ТАК много препроцессинга. На профайл не обратил внимания — и правда, было бы полезно. Но с другой стороны, если рассматривать мой пост применительно к другому кейсу, там никаких пройфайлов скорее всего не будет, и описанные приемы обработки могут пригодиться. Насчет API, было бы здорово, если бы эта информация была на сайте; а если еще с примерами, так вообще замечательно. Ведь данные действительно ценные.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории