mixamax26 окт 2017 в 07:12

Краулер для краулера

3 мин

5.4K

Анализ и проектирование систем *

Из песочницы

Комментарии 12

НЛО прилетело и опубликовало эту надпись здесь

mixamax 26 окт 2017 в 09:30

Пробовали. Тор быстро блокировался. Да и скорость тора несколько ниже.

НЛО прилетело и опубликовало эту надпись здесь

mixamax 26 окт 2017 в 09:56

RabbitMQ — очередь тасков на случай, если нагрузка по запросам возрастёт. В MongoDB хранятся данные по скачанным результатам, в то время как Redis используется как кеш для сохранения статусов обратки.

НЛО прилетело и опубликовало эту надпись здесь

mixamax 26 окт 2017 в 19:53

Про rabbit написано выше. Redis используется, чтобы не дёргать лишний раз основную БД. Конечно, можно всё реализовать через MongoDB в т.ч. и очередь, но лучше использовать инструменты, предназначенные для этих целей.

ilyaplot 26 окт 2017 в 11:12

включение таймаута на его использование, запросы должны идти с некоторой задержкой

Были в моей практике серверы, которые выдавали бан на основе анализа таймаута между запросами. Теперь я всегда устанавливаю рандомный таймаут.
Еще один прием — обязательно передаю HTTP referer. В больщинстве случаев он должен быть известен, но я не думаю, что кто-то заморачивался с проверками его корректности. Он просто должен быть.
Так же, я встречал системы, которые используют mousmove для проверки на ботов. Приходилось эмулировать запросы подобных скриптов на сервер, которые отрабатывали в течение 10-20 секунд после скачивания страницы.

mixamax 26 окт 2017 в 12:13

Про рандомный таймаут — да, это полезное дополнение. Если говорить про заголовки HTTP, тот тут уже не только referer, лучше на этапе анализа ресурсов изучить запросы и передаваемые хедеры. В некоторых случаях оказывается, что требуется нечто большее…
Анализ поведения пользователя на сайте (mousemove и подобные) по большей части появляется в задачах связанных с накруткой активности/просмотров. В этом случае надо уже придумывать более сложные механизмы и сценарии поведения, но это уже другая задача.

vtulin 27 окт 2017 в 14:30

Наверное правильнее всё же назвать «Парсер для краулера», он же у вас не убегает за пределы поисковиков. Или я не догнал? Вон тот «Spider» в центре это кто такой?

mixamax 27 окт 2017 в 19:51

На текущий момент не убегает, в дальнейшем предполагается нарастить этот функционал. Тот «Spider», который в центре отвечает за переход между страницами выдачи и скачивание их.

ValdikSS 30 окт 2017 в 18:28

Краулер для краулера — searx
Поддерживается множество поисковиков, как обычных, так и специализированных (поиск по торрентам, apk/ipa, картинкам, музыке, исходникам). Есть достаточное количество публичных нод: stats.searx.oe5tpo.com
Есть даже движок поиска по habrahabr и geektimes, но что-то он сломан.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий