Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Обычно ситуации с капчами и куками выглядят как зависимость одной страницы от другой. И когда будет происходить загрузка, то система должна знать об этой зависимости и выполнять дополнительный запрос.В схеме старался максимально уменьшить каждый блок, а также сделать некоторый стандартный набор, который можно будет повторно использовать с помощью минимальной параметризации для другого сайта. Модуль загрузки универсален и может быть единым для всех сайтов.
Интересно как вы подойдете к реализации. Я подобную систему разрабатывал в одном из проектов,. там у меня схожие принципы применялись. Как раз вот готовлю статью на эту тему.Вашу статью с интересом прочитаю. Сейчас планирую подойти к реализации максимально просто. У меня есть набор скриптов (на Node.js), которые отлично занимаются загрузкой, но любая ошибка приводит к множеству дополнительных действий на исправление логики, а также времени на повторную загрузку. Начну с более чёткого деления на модули и некоторого обобщения внутренних структур.
Самым неприятным для реализации сейчас представляется модуль обновления и структура хранилища. Мне хочется, чтобы платформа сама позволяла хранить различные именованные сущности, причём с поддержкой версий.
Если каждый будет авторизовываться
Паук, который умеет разбирать уже ранее скаченные документы является более продвинутым, чем тот, который этого не умеет.
Архитектура интеллектуального Интернет-паука