Как стать автором
Обновить

Комментарии 12

Вместо прокси лучше тор.
Пробовали. Тор быстро блокировался. Да и скорость тора несколько ниже.
Ну у нас обратный опыт ;)
НЛО прилетело и опубликовало эту надпись здесь
RabbitMQ — очередь тасков на случай, если нагрузка по запросам возрастёт. В MongoDB хранятся данные по скачанным результатам, в то время как Redis используется как кеш для сохранения статусов обратки.
НЛО прилетело и опубликовало эту надпись здесь
Про rabbit написано выше. Redis используется, чтобы не дёргать лишний раз основную БД. Конечно, можно всё реализовать через MongoDB в т.ч. и очередь, но лучше использовать инструменты, предназначенные для этих целей.
включение таймаута на его использование, запросы должны идти с некоторой задержкой

Были в моей практике серверы, которые выдавали бан на основе анализа таймаута между запросами. Теперь я всегда устанавливаю рандомный таймаут.
Еще один прием — обязательно передаю HTTP referer. В больщинстве случаев он должен быть известен, но я не думаю, что кто-то заморачивался с проверками его корректности. Он просто должен быть.
Так же, я встречал системы, которые используют mousmove для проверки на ботов. Приходилось эмулировать запросы подобных скриптов на сервер, которые отрабатывали в течение 10-20 секунд после скачивания страницы.
Про рандомный таймаут — да, это полезное дополнение. Если говорить про заголовки HTTP, тот тут уже не только referer, лучше на этапе анализа ресурсов изучить запросы и передаваемые хедеры. В некоторых случаях оказывается, что требуется нечто большее…
Анализ поведения пользователя на сайте (mousemove и подобные) по большей части появляется в задачах связанных с накруткой активности/просмотров. В этом случае надо уже придумывать более сложные механизмы и сценарии поведения, но это уже другая задача.
Наверное правильнее всё же назвать «Парсер для краулера», он же у вас не убегает за пределы поисковиков. Или я не догнал? Вон тот «Spider» в центре это кто такой?
На текущий момент не убегает, в дальнейшем предполагается нарастить этот функционал. Тот «Spider», который в центре отвечает за переход между страницами выдачи и скачивание их.
Краулер для краулера — searx
Поддерживается множество поисковиков, как обычных, так и специализированных (поиск по торрентам, apk/ipa, картинкам, музыке, исходникам). Есть достаточное количество публичных нод: stats.searx.oe5tpo.com
Есть даже движок поиска по habrahabr и geektimes, но что-то он сломан.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории