Комментарии 12
Вместо прокси лучше тор.
0
НЛО прилетело и опубликовало эту надпись здесь
RabbitMQ — очередь тасков на случай, если нагрузка по запросам возрастёт. В MongoDB хранятся данные по скачанным результатам, в то время как Redis используется как кеш для сохранения статусов обратки.
0
включение таймаута на его использование, запросы должны идти с некоторой задержкой
Были в моей практике серверы, которые выдавали бан на основе анализа таймаута между запросами. Теперь я всегда устанавливаю рандомный таймаут.
Еще один прием — обязательно передаю HTTP referer. В больщинстве случаев он должен быть известен, но я не думаю, что кто-то заморачивался с проверками его корректности. Он просто должен быть.
Так же, я встречал системы, которые используют mousmove для проверки на ботов. Приходилось эмулировать запросы подобных скриптов на сервер, которые отрабатывали в течение 10-20 секунд после скачивания страницы.
0
Про рандомный таймаут — да, это полезное дополнение. Если говорить про заголовки HTTP, тот тут уже не только referer, лучше на этапе анализа ресурсов изучить запросы и передаваемые хедеры. В некоторых случаях оказывается, что требуется нечто большее…
Анализ поведения пользователя на сайте (mousemove и подобные) по большей части появляется в задачах связанных с накруткой активности/просмотров. В этом случае надо уже придумывать более сложные механизмы и сценарии поведения, но это уже другая задача.
Анализ поведения пользователя на сайте (mousemove и подобные) по большей части появляется в задачах связанных с накруткой активности/просмотров. В этом случае надо уже придумывать более сложные механизмы и сценарии поведения, но это уже другая задача.
0
Наверное правильнее всё же назвать «Парсер для краулера», он же у вас не убегает за пределы поисковиков. Или я не догнал? Вон тот «Spider» в центре это кто такой?
0
Краулер для краулера — searx
Поддерживается множество поисковиков, как обычных, так и специализированных (поиск по торрентам, apk/ipa, картинкам, музыке, исходникам). Есть достаточное количество публичных нод: stats.searx.oe5tpo.com
Есть даже движок поиска по habrahabr и geektimes, но что-то он сломан.
Поддерживается множество поисковиков, как обычных, так и специализированных (поиск по торрентам, apk/ipa, картинкам, музыке, исходникам). Есть достаточное количество публичных нод: stats.searx.oe5tpo.com
Есть даже движок поиска по habrahabr и geektimes, но что-то он сломан.
0
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.
Краулер для краулера