Search
Write a publication
Pull to refresh
56
0
Дмитрий Сергеев @DataWondering

Data Science @ ŌURA, автор канала @data_wondering

Send message

Очень годно! Было бы круто посмотреть на статистику за более долгий срок. Общая тенденция, скорее всего, идет на снижение и полёты становятся всё безопаснее, что видно даже на вашем графике с 2014 года

Вот это отличная идея, такого не проверял, так что прошелся сейчас по разным метеорологическим источникам. В основном, ветер Юго-Западный, так что не совпадает с направлениями собаки.

https://www.researchgate.net/figure/Wind-roses-for-the-data-from-the-meteorological-tower-in-Helsinki-Airport-Calm-winds_fig1_307907638
https://www.meteoblue.com/en/weather/historyclimate/climatemodelled/helsinki_finland_658225

до опытов по размагничиванию дроздов можно докатиться

Пытался загуглить, что же такое размагничивание дроздов и что за опыты, безуспешно :D

Чуть ниже отвечал как раз про время, оно очень сильно варьируется. И сам факт двух прогулок в день, утром и вечером, на мой взгляд, не объясняет бимодальность распределения при прочих равных.

Почему бы вдруг собака стала выстраиваться именно по оси Север-Юг, если исключить влияние Солнца, единственного меняющегося параметра?

Сначала прочитал как «автор очень упоротый» и хотел полностью согласиться :D

А так да, ради любопытства и желания пощупать разные методы, ничего не жалко

Тоже отличные гипотезы! Я собирал данные на протяжении более 6 месяцев, так что в выборку попали и зимние и летние месяцы. А так как мы живём в Финляндии и у нас тут радикально меняется световой день от ~3 часов зимой до почти 20 летом, то собаке либо пришлось бы рандомно выбирать направление, либо всё время смотреть только в одно сторону.

При этом, как видно из гифки с байесовскими апдейтами, основные направления проявились сразу же и не менялись с течением времени. А значит, влияние солнца можно исключить.

Насчет моментов прогулок и графика хозяина, я бы сказал, что всё больше крутится вокруг графика собаки. Он очень любит поспать, поэтому прогулка начинается тогда, когда пёсель соизволит проснуться утром или после дневного сна, а это довольно рандомный момент времени :D

Про южное полушарие, к сожалению, в статье не пишут, данные там собирались по собакам из Германии и Чехии. Но и единственного предпочтительного направления у собак нет, они выстраиваются вдоль оси Север-Юг, не обязательно смотря только в одну их сторон.

Красавец! (Или красавица)

Воспоминание разблокировано, с удовольствием пересмотрел :)

Есть шанс пособирать на своём кавалере данные и проверить!

(Фото шикарное и да, храпят только так)

Тоже была такая мысль, когда только начал собирать датку. У собаки есть свои любимые места и гуляем примерно по одному маршруту. Но когда я стал обращать внимание на ориентацию относительно дорожек, там был полный рандом: он мог встать поперек, под углом, параллельно и т.д. Зато очень близко выходило к север-югу, так что я всё ещё думаю, что дело не во внешних факторах. К тому же дорожка, по которой мы гуляем, по форме очень похожа на кольцо, без каких-либо намёков на выравнивание по компасу :)

Очень крутая идея, я бы на такую статистику посмотрел!

C CountVectorizer начинаем ;)
Так и есть, новый state-of-the-art может каждые пару месяцев появляться, всё время нужно следить, учиться, переучиваться, дополнять или выкидывать. Но и «классические» методы из каких-нибудь дремучих 2010-х годов всё ещё активно используются и отлично себя показывают, так что приходится знать и то, и другое, и третье.
Зато не скучно :3

Действительно, если бы я предсказывал для 2 часов ночи — пришлось бы брать утекшие данные для 1 часа (или подставить предсказанные для него значения), но здесь всё зависит от того, для чего нужен прогноз и на какой период.


Если нужно, например, ежечасно отслеживать аномалии и каждый час можно добавлять в модель новые данные — то в долгосрочном прогнозе нет необходимости. Для прогноза на бОльший период придётся сдвигать начальный лаг модели вглубь, например, если мы хотим уметь прогнозировать на 12 часов вперёд, то и последнее доступное значение для модели должно быть смещено во времени на тот же период, чтобы избежать лика.

А можно полюбопытствовать, что значит «входит в число запрещенных» — провайдер блокирует доступ или администратор рабочей сети не даёт мемесы посмотреть? :)
Вчера точно не было, хотя распараллелить тут можно достаточно просто — разбить потоки по батчам страниц, например, штук по 50-100, а потом объединить в финальный датасет.
Честно говоря, до промышленных систем в таких масштабах дело не доходило, но можно посмотреть в сторону вот этих ребят — scrapinghub.com. Они как раз разрабатывают платформу, позволяющую быстро, эффективно и масштабируемо собирать данные.
Ограничения на число запросов в разных конфигурациях конечно же пробовали, к сожалению, не помогло. Тор активно банят, да и переключение между разными выходами — дело медленное, но все-таки выходных узлов достаточно для того, чтобы забаненные IP не повторялись, а в исследовательских целях, когда сам парсер лишь промежуточный инструмент, а не конечный продукт, можно и подождать.
Прокси — замечательный вариант, если действительно хорошо поискать или заплатить надежным поставщикам, но хотелось поэкспериментировать именно с тором и его передресацией запросов. А за ссылку большое спасибо, наверняка не раз в будущем пригодится!
Честно говоря, не пробовали, но в предыдущих проектах это не помогало. К тому же время отправки запросов и так не было распределено со строгими интервалами, некоторые страницы подгружались быстрее, некоторые медленнее, что зависело и от скорости сети, и от количества контента на странице.

Безусловно, ограничение числа запросов было первым опробованным методом, time.sleep() наше всё, однако он совершенно не спасал. Во-первых, 429-я ни разу не всплывала, а во-вторых, даже при увеличении интервала между запросами до одной минуты, бан всё равно приходил. Из чего мы и сделали вывод, что блокировка происходит при любом подозрении на автоматические запросы, и поэтому стали искать новые способы обхода.

Под «не зря» подразумевалась победа в хакатоне :)
Судя по всему, на тестовых данных именно такое решение показало наибольшую точность
1

Information

Rating
Does not participate
Works in
Date of birth
Registered
Activity