Комментарии 6
Вместо Simple HTML DOM я бы посоветовал paquettg/php-html-parser. Вообще, наткнулся на неё после того, как simple html dom отказывался парсить большой html-файл. Эта либа всё распарсила без проблем.
И да, это, по большей части, либы не для скрейпинга, а именно для парсинга. То есть, мы можем, используя Guzzle, получать HTML, а с их помощью уже извлекать из кода нужную нам информацию.
Как альтернативу Symfony Panther можно попробовать php-webdriver/php-webdriver (selenium на php). Не скажу, что из этого лучше, т.к. первой библиотекой никогда не пользовался.
И да, это, по большей части, либы не для скрейпинга, а именно для парсинга. То есть, мы можем, используя Guzzle, получать HTML, а с их помощью уже извлекать из кода нужную нам информацию.
Как альтернативу Symfony Panther можно попробовать php-webdriver/php-webdriver (selenium на php). Не скажу, что из этого лучше, т.к. первой библиотекой никогда не пользовался.
0
Но поскольку мы не хотим изобретать колесо
Тогда нужно использовать phpQuery, или другие готовые решения :)
0
В этом случае его можно посмотреть, кликнув правой кнопкой над списком книг и выбрав пункт Inspect.
Сейчас куча хомячков пойдет SPA парсить)
Это не исходный код страницы, а текущее состояние DOM
0
Зачастую хватает file_get_contents() и пары регулярок, и все молниеносно скрапится. При необходимости curl и guzzle, а все остальное имхо лишнее.
+1
Судя по комментариям выше у меня у одного код в статье как дерьмо отображается: без переносов, без отступов и с великолепной [ ` ] ?
+1
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Веб-скрейпинг на PHP