Комментарии / Профиль gordeevov / Хабр

Пользователь

Профиль Публикации Комментарии 3Закладки

gordeevov 25 мая 2016 в 00:50

Знаю это.
Я почему и пишу, пару лет назад как раз и занимался этим. Сейчас — нет.
И тогда как раз скрин-скрейпер мне реально помог. Правда там был enterprise edition, у заказчиков был куплен.
С защитой постоянно сталкивался.
Всё обходилось легко, всякие сессии, cookies и т.д. — влёт, это вообще не вопрос. Эмуляция запроса-ответа, потом следующий запрос с новыми данными. А js я же в ответе получаю, его же и использую.
AJAX — вызывал проблемы, там уже руками приходилось писать, но тоже решаемо.

Вот частота запросов — это да.
Тогда мы обходились несколькими серверами, частоту регулировали скриптом, да еще и прокси всякие подставляли, геморрой еще тот был.

С другой стороны — стандартные задачи они стандартно и решаются… У меня обычно было что-то типа каталога на сайте. Сначала поиск по одному критерию, получаешь несколько страниц списков. По всем страницам пройти, зайти в каждый элемент списка и оттуда взять данные, сохранить в удобоваримой форме.
Доходило до 4-5 дней на один сайт (с паузами, чтобы не блокировали по частым запросам)
Но написание скрипта на каждый сайт (а их больше 500 было) в итоге занимало по полчаса.

Посмотреть

Web scraping при помощи Node.js

gordeevov 24 мая 2016 в 22:38

Я же не утверждал, что это панацея :)
Всего лишь инструмент.
Без понимания именно тех низкоуровневых основ — в любом случае не получится сделать что-то сложное.

Но инструмент достаточно гибкий и удобный. Сильно помогает в парсинге полученного html, облегчает и ускоряет рутинные задачи, тот же самый анализ заголовков запросов/ответов.

Защиту от него написать — ну тут не знаю… Он же шлет себе http-запросы… Я же их сам и редактирую, если надо. Как сайт определит, что я не из браузера захожу?

Другой вопрос, что если это надо отдать клиенту для постоянного применения — то тут да, нужно уже своё что-то на эту тему использовать, под конкретный сайт заточенное.

Посмотреть

Web scraping при помощи Node.js

gordeevov 24 мая 2016 в 21:39

Есть же готовый инструмент, screen-scraper.com
Бесплатная версия для основных задач такого рода вполне подходит.

Посмотреть