asibiryakov Mar 29 2017 at 12:16

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

4 min

Big Data*System Analysis and Design*High performance*

From sandbox

+13

Comments 34

yusman Mar 29 2017 at 12:58

Интересный продукт, спасибо!
Подскажите, а Scrapinghub умеет работать с «динамическими» страницами с большим количеством JS? Например, ждать появления какого либо элемента страницы, прежде чем начать парсить страницу.

square Mar 29 2017 at 13:19

Это крайне нетривиальная задача, а тут обычный паук, вам нужен куда более «сообразительный» парсер.

gearbox Mar 29 2017 at 19:53

Тривиальная но крайне требовательная к ресурсам — так имхо правильнее. На фантоме пишется за вечер. Я писал.

roller Mar 29 2017 at 22:21

Для одного сайта. После того как вы посмотрели его глазами и нашли к чему привязаться в xpath (теги, id, вложенность). И написали скрипты именно для этого сайта. А сайтов тысячи.

gearbox Mar 30 2017 at 07:57

Мы похоже про разные вещи говорим.
дернули спашку, отрендерили в фантоме, слили построенный дом — дальше можно индексировать как обычную статику. Про эмуляцию действий пользователя речи не шло.

roller Mar 30 2017 at 10:14

Ок. Отрендерили вы DOM, а если на живом сайте скролить вниз происходит подгрузка данных. То есть на первом шаге вы не получает все данные. Если это не критично, то конечно так можно поступить.

kirill3333 Mar 30 2017 at 11:53

В целом согласен с вами фантом не предоставляет подобного функционала и обычно делаеться это либо ожиданием появления какого то элемента либо функцией которая запускаеться после полной загрузки страницы и переодически проверяет не появились ли новые запросы в течении какого то времени и если нет то считается что сайт отренедрился

gearbox Mar 30 2017 at 14:27

а это уже селениум c драйвером фантома. Но тут да — под каждый сайт (движок) свои хаки. Ну или подождать сильный ИИ )

marni Apr 10 2017 at 12:38

Если сайт не сильно мудреный — можно делать AJAX запрос руками. В большынстве случаев такой способ роботоспособный.

gearbox Mar 30 2017 at 14:25

Да, в таком юзкейсе Вы правы и это очевидно. Я говорил именно об индексации страниц, генерируемых js без действий пользователя. Их тоже немало, других простых способов решить вопрос — нет, гугль, насколько мне известно поступает также.

mamayama Apr 10 2017 at 12:38

Колесико мышки-то сейчас имеет смысл эмулировать для всех сайтов.
На 99,9999999% решит вопрос подгрузки страницы.

asibiryakov Mar 29 2017 at 13:31

Пока что только применительно к конкретному веб-сайту. У нас есть своя разработка https://github.com/scrapinghub/splash

square Mar 29 2017 at 13:10

Возможно перед HBase поставить фильтр Блума, чтобы поменьше его кантовать? Или там иного рода проблемы?

asibiryakov Mar 29 2017 at 13:24

В HBase он уже есть встроенный.

slavenski Mar 29 2017 at 13:28

Я далек от Web'а, и сейчас, наверное, моя карма уйдет в небытие =), но подскажите, правильно ли я понял, разрабатывается фреймворк, который исполняет роль поисковика?

asibiryakov Mar 29 2017 at 13:29

Этот фреймворк скачивает документы из сети. Скачанный контент может использоваться для построения поисковика.

UFO landed and left these words here

asibiryakov Mar 29 2017 at 14:55

Это тоже верно. Просто по мере разработки мы поняли, что стратегия обхода отдельно от хранилища и от других компонент, отвечающих за обмен данными не представляет большой пользы. В результате мы разработали эти компоненты и приняли решение, что Фронтера будет навязывать архитектуру всего робота. При этом мы старались сделать её максимально расширяемой.

UFO landed and left these words here

asibiryakov Mar 30 2017 at 09:21

Использование Scrapy не является обязательным при построении роботов на Fronter'е. Но если Вы берете воркер стратегии, разрабатываете под него стратегию обхода, то должны будете считаться с тем, как во Fronter'е реализован менеджмент состояний, очередь и обмен данными между компонентами.

Carburn Mar 29 2017 at 21:42

Он роль поискового робота выполняет.

UFO landed and left these words here

asibiryakov Mar 29 2017 at 14:56

Скорее наоборот, это понимание у них не появится пока они не возьмут и не попробуют. А вот с этим у нас не все хорошо.

UFO landed and left these words here

gearbox Mar 29 2017 at 20:00

>Разнится скорость ответа веб-серверов, размер и количество страниц на сайте

Учитываете ли при работе данные с robots.txt (второй версии желательно) Если от ваших запросов сервер начинает тупить — мониторите/замеряете/корректируете частоту запросов?

Писал паука для одного из проектов, имхо — если не самая сложная то одна из по головоломности частей получилась как раз работа с robots.txt Но у меня там еще загон был — разные политики по юзер-агенту (статичный, round-robin, кастом) и юзерагент мог как учитываться так и нет при обработке robots (в зависимости от настроек)

asibiryakov Mar 30 2017 at 09:12

Статья про фреймворк, а не про конкретный робот. Есть два способа обрабатывать robots.txt в рамках Fronter'ы и Scrapy. Самое простое, это использовать RobotsTxtMiddleware в Scrapy. Перед обработкой URL запрашивается robots.txt с домена, кешируется, и все запросы к домену проверяются если допустимы в рамках robots.txt домена.
Второй способ, это интегрировать обработку robots.txt в стратегию обхода, и попросту не планировать URL, которые запрещены в robots.txt.

gearbox Mar 30 2017 at 14:21

allow/disallow отрабатываются тривиально, речь шла о нормальной работе с Request-rate и Visit-time. Но ответ Ваш я понял, спасибо!

roller Mar 29 2017 at 22:15

Люди, которые научатся доставать исходные данные из react-кода без выполнения js — озолотяться

ShamanR Mar 30 2017 at 08:46

Что вы под этим подразумеваете? Какой юзкейс?

roller Mar 30 2017 at 10:53

Юзкейс прост — экономить деньги/время. Вместо запуска фантомов для выполнения js — простой curl

fediq Mar 30 2017 at 07:36

Я так понимаю, автор имеет отношение к Scrapinghub. Скажите, а ваша Portia — она насколько стабильно работает и насколько сложный парсинг поддерживает?

Попробовал вчера hosted версию — при работе с переменным числом блоков эвристики постоянно промахиваются, и получается мусор. При попытке выгрузить "накликанный" парсер в формате Scrapy — выгружает что-то похожее на mock'овый код — модельки описаны, а алгоритм парсинга — нет.

kmike Mar 30 2017 at 09:15

Насколько знаю, внутри portia — библиотечка https://github.com/scrapy/scrapely. Ну т.е. там еще куча всего есть, но вроде дефолтное извлечение выполняется именно через scrapely. Это и есть алгоритм парсинга.

asibiryakov Mar 30 2017 at 11:51

Пришлите конкретные поля/запросы, мы посмотрим со своей стороны.