2. Фоточки могут иметь определенную сезонность или периодичность. Например в этом месте разово провели какое-то крутое мероприятие: концерт, карнавал и т.п. Люди наделали и напостили вагон фоточек, создав локальный кластер. Но больше такого мероприятия там не планируется, и месяц спустя туристу там уже делать нечего. В этой статье чтобы отфильтровывать такие темы анализировали теги, но все равно такие фото могут просачиваться и портить статистику, создавая «ложные» достопримечательности.
Да, это действительно имеет место, но как правило «места на раз» тонут среди постоянных, особенно если их фильтровать, например, по дате.
1. Большое количество фоточек в каком-то конкретном месте вовсе не означает, что место интересно для туристов и стоит посещения. Очень много фотографий, например, делают в транспортных хабах: вокзалах, аэропортах.
3. Фоточки постят не только туристы, но и местные жители. А у них могут быть совсем разные интересы, как описано в этой статье. Может быть куча кластеров фото вокруг, например, школ и детских садов, где местные жители фотографируют своих чад, но туристу это, опять же, не интересно.
Это ловит классификатор изображений: понятно, что туристу интересны места, помеченные как museum, promenade и restaurant, а не как office, schoolhouse и airport_terminal.
Идея прорабатывалась примерно полтора года (с большими перерывами). Когда она родилась, я еще не знал про jupyter, word2vec и т. д. До ноября не было никаких графиков — вся статистика в текстовом виде!
1. Tex-версия есть не всегда. Качать PDF или Tex — вопрос спорный. Думаю, при необходимости, можно добавить такую опцию.
2. «Indiscriminate automated downloads from this site are not permitted. We have limited server capacity...» Если мы качаем статьи одного года из одного раздела, насколько это indiscriminate? Не знаю. Тем более, что arxiv отдает статьи достаточно медленно. А еще мы можем воспользоваться каким-нибудь из его зеркал.
Это ловит классификатор изображений: понятно, что туристу интересны места, помеченные как museum, promenade и restaurant, а не как office, schoolhouse и airport_terminal.
2. «Indiscriminate automated downloads from this site are not permitted. We have limited server capacity...» Если мы качаем статьи одного года из одного раздела, насколько это indiscriminate? Не знаю. Тем более, что arxiv отдает статьи достаточно медленно. А еще мы можем воспользоваться каким-нибудь из его зеркал.