Search
Write a publication
Pull to refresh
2
0
Михаил @mixamax

IT

Send message
На текущий момент не убегает, в дальнейшем предполагается нарастить этот функционал. Тот «Spider», который в центре отвечает за переход между страницами выдачи и скачивание их.
Про rabbit написано выше. Redis используется, чтобы не дёргать лишний раз основную БД. Конечно, можно всё реализовать через MongoDB в т.ч. и очередь, но лучше использовать инструменты, предназначенные для этих целей.
Про рандомный таймаут — да, это полезное дополнение. Если говорить про заголовки HTTP, тот тут уже не только referer, лучше на этапе анализа ресурсов изучить запросы и передаваемые хедеры. В некоторых случаях оказывается, что требуется нечто большее…
Анализ поведения пользователя на сайте (mousemove и подобные) по большей части появляется в задачах связанных с накруткой активности/просмотров. В этом случае надо уже придумывать более сложные механизмы и сценарии поведения, но это уже другая задача.
RabbitMQ — очередь тасков на случай, если нагрузка по запросам возрастёт. В MongoDB хранятся данные по скачанным результатам, в то время как Redis используется как кеш для сохранения статусов обратки.
Пробовали. Тор быстро блокировался. Да и скорость тора несколько ниже.

Information

Rating
Does not participate
Location
Тегусигальпа, Тегусигальпа, Гондурас
Date of birth
Registered
Activity