Как стать автором

AloneCoder 28 июн 2021 в 15:21

Веб-скрейпинг на PHP

10 мин

20K

Блог компании VKPHP*Программирование*Тестирование веб-сервисов*

Туториал

Перевод

+16

Комментарии 6

tempick 28 июн 2021 в 16:22

Вместо Simple HTML DOM я бы посоветовал paquettg/php-html-parser. Вообще, наткнулся на неё после того, как simple html dom отказывался парсить большой html-файл. Эта либа всё распарсила без проблем.
И да, это, по большей части, либы не для скрейпинга, а именно для парсинга. То есть, мы можем, используя Guzzle, получать HTML, а с их помощью уже извлекать из кода нужную нам информацию.
Как альтернативу Symfony Panther можно попробовать php-webdriver/php-webdriver (selenium на php). Не скажу, что из этого лучше, т.к. первой библиотекой никогда не пользовался.

topuserman 29 июн 2021 в 11:44

Но поскольку мы не хотим изобретать колесо

Тогда нужно использовать phpQuery, или другие готовые решения :)

krch_Vova 29 июн 2021 в 11:44

В этом случае его можно посмотреть, кликнув правой кнопкой над списком книг и выбрав пункт Inspect.

Сейчас куча хомячков пойдет SPA парсить)
Это не исходный код страницы, а текущее состояние DOM

fijj 29 июн 2021 в 17:13

Зачастую хватает file_get_contents() и пары регулярок, и все молниеносно скрапится. При необходимости curl и guzzle, а все остальное имхо лишнее.

bolide 23 авг 2022 в 20:10

хехе, ну попробуйте Озон или Кинопоиск так попарсить :)

Всякие incapsula и cloudflare такое режут с первого же реквеста

rpsv 30 июн 2021 в 06:16

Судя по комментариям выше у меня у одного код в статье как дерьмо отображается: без переносов, без отступов и с великолепной [ ` ] ?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий