Как стать автором
Обновить

Комментарии 6

Вместо Simple HTML DOM я бы посоветовал paquettg/php-html-parser. Вообще, наткнулся на неё после того, как simple html dom отказывался парсить большой html-файл. Эта либа всё распарсила без проблем.
И да, это, по большей части, либы не для скрейпинга, а именно для парсинга. То есть, мы можем, используя Guzzle, получать HTML, а с их помощью уже извлекать из кода нужную нам информацию.
Как альтернативу Symfony Panther можно попробовать php-webdriver/php-webdriver (selenium на php). Не скажу, что из этого лучше, т.к. первой библиотекой никогда не пользовался.

Но поскольку мы не хотим изобретать колесо

Тогда нужно использовать phpQuery, или другие готовые решения :)

В этом случае его можно посмотреть, кликнув правой кнопкой над списком книг и выбрав пункт Inspect.

Сейчас куча хомячков пойдет SPA парсить)
Это не исходный код страницы, а текущее состояние DOM
Зачастую хватает file_get_contents() и пары регулярок, и все молниеносно скрапится. При необходимости curl и guzzle, а все остальное имхо лишнее.

хехе, ну попробуйте Озон или Кинопоиск так попарсить :)

Всякие incapsula и cloudflare такое режут с первого же реквеста

Судя по комментариям выше у меня у одного код в статье как дерьмо отображается: без переносов, без отступов и с великолепной [ ` ] ?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий