and_rew Jun 7 2016 at 06:24

Как парсить интернет по-гусиному

3 min

40K

JavaScript*Node.JS*Browser extensions

+10

Comments 11

WST Jun 7 2016 at 08:24

Надеюсь, это не разработка Алексея Бабушкина?

GreyCat Jun 7 2016 at 08:55

Пока и из всей статьи, и из поверхностного чтения документации абсолютно непонятно, чем это лучше сотни имеющихся альтернатив. Более-менее понятно, чем хуже: хотя бы необходимостью изучать очередной новый API, механизм описания правил и т.д. Интересно, есть какие-то преимущества и killer features, ради чего нужно бросить Scrapy, Grab, pjscrape, EDF, harvest/jarvest, upton, или даже какую-то когорту более высокоуровневых инструментов, где не надо вручную писать правила?

ChALkeRx Jun 7 2016 at 10:38

Исходя из текста статьи, я так понял, что гусями.

Но в данный момент это претензия не к самой библиотеке, а скорее к методу подачи материала в статье. Код ещё не смотрел.

GreyCat Jun 7 2016 at 13:45

Я чуть-чуть посмотрел, пока чего-то суперинтересного не обнаружил. Масштабирования нет примерно никакого: ни слова о том, чтобы подключать какое-то внешнее хранилище URLов, индексы, очереди и т.д. Выживаемость, перезапускаемость и восстанавливаемость процесса тоже на первый взгляд примерно никакая: даже если очень захотелось и начал парсить пару миллионов страниц на одной машине и оно упало где-то в конце — начинаем все с самого начала. Автоматизации парсинга толком никакой не просматривается: для того, чтобы локализировать нужный кусок текста на странице нужно написать вручную некое декларативное описание координат вытаскиваемого. Никаких инструментов, чтобы генерировать такие штуки хотя бы визуально, тупо ткнув в браузере по элементу, вроде бы нет. Поддержки каких-то продвинутых методов стабилизации скачивания (поддержания собственного списка проксей, абьюзинг TOR ;), или хотя бы зацепления за ту же Crawlera) нет — есть максимум куцая ротация заранее заданного списка проксей.

Вопрос, что же там есть уникального, чего нет нигде, остается.

jonic Jun 7 2016 at 11:49

Планируется цикл статей — этаких how-to в таком же стиле? :)

maZahaca Jun 8 2016 at 10:58

да :)

Amareis Jun 7 2016 at 12:16

parser.parse({ actions, rules }).then(console.log);

Вот это разве не бросит исключение? Там вроде надо делать console.log.bind(console).

ChALkeRx Jun 7 2016 at 12:48

В браузере — бросит, в Node.js методы console прибайндены к console.

IvanPanfilov Jun 7 2016 at 13:18

{
type: 'type', // тип действия — печатать
text: 'гусыня', // Гусь будет искать гусынь, чтоб неплохо потоптаться
scope: '.field[name=search]' // селектор елемента
},
{
type: 'click',
scope: 'button[type=submit]',
waitForPage: true // если знаем что результаты откроются на новой странице
}

const rules = {
scope: '.goose-babe'

зачем изобретать новый язык?
и чем это лучше querySelector?

asavin Jun 8 2016 at 20:38

Это не новый язык, это json, в котором селекторы Sizzle + какие-то действия, которые нужно совершить.

Demogor Jun 13 2016 at 08:09

Сама статья любопытна, стиль написания позабавил, спасибо.
Что до личного опыта — из всех инструментов для базового парсинга, которые пробовал, пока больше всего понравился NW.js/Electron. Из коробки можно подключить тот же jQuery(а можно и ванильной js'кой) и строить DOM-дерево со всеми последующими плюшками.
За счет контекста ноды легко контачится с Tor'ом, чуть сложнее — с Fiddler(что позволяет делать волшебные штуки вроде распределения списка прокси по каждому запросу либо изменений ответа сервера), из коробки умеет прокси/подмену заголовков(что тоже иногда весьма полезно) и прочие радости жизни. Отличная поддержка ES6 из коробки, все такое. Ну и визуальное отображение результатов/отладки никто не отменял, конечно же(удобно, когда приходится ковырять пакован обфусцированного js).

Show the best of all time