sepetov Jan 6 2023 at 10:22

Парсинг HTML с помощью PHP и SQL. Немного провокационный пример с анализом пользователей Хабра

11 min

11K

PHP*SQL*HTML*

Tutorial

+37

Comments 24

mixsture Jan 6 2023 at 11:36

Я для таких случаев ищу библиотеку с поддержкой поиска по xpath. Они обычно из коробки уже умеют отбирать с условиями по вложенности элементов друг в друга, а у этой библиотеки вложенность можно только в коде описать. Кроме того, извлекаемые элементы часто и в дизайне сайта уже как-то выделены, поэтому с хорошей вероятностью путь xpath до нужного элемента можно взять из стилей и это уменьшает возможность ошибки определения признаков.

sepetov Jan 6 2023 at 11:55

Это верно. По ссылкам тоже инструменты не менее удобные. Статью об этом нет желания написать? :-)

support917 Jan 6 2023 at 12:06

Нормально придумано - откручивать крестообразный шуруп плоской отверткой.

DOM - это ведь та же NoSQL база данных, где данные хранятся не линейно, а как матрешка, и доступ к ним удобно получать по цепочке, а не как из плоской таблицы.

sepetov Jan 6 2023 at 12:10

А кто ж будет спорить, что теги вложены друг в друга как матрёшка? Когда интересует структура у документа, а не только сами данные, htmlSQL не подходит.

Когда по-быстрому нужны сами данные - вполне подходит. Например, цель: выбрать все картинки в документе.

support917 Jan 6 2023 at 12:23

Если нужны все картинки, nosql запрос выглядит более лаконично: "img".

Если нужны картинки с классом, то "img.classname".

Если в SQL варианте нет даже join - все равно не понимаю, зачем это нужно.

sepetov Jan 6 2023 at 12:30

Конечно лаконичней, с этим не поспорить. Впрочем, "SELECT src FROM img" тоже умещается в одну строчку.

pOmelchenko Jan 6 2023 at 12:52

Крипово, но почему бы и нет?

Надо еще чутка причесать (хоть как-то к PSR привести) и оформить в композер пакетом :)

Pochemuk Jan 6 2023 at 13:23

Connect делается напрямую к URL. А если надо через прокси?

sepetov Jan 6 2023 at 13:30

Такой функциональности нет (в явном виде). Сам curl, разумеется, имеет ключ:

--proxy 11.22.33.44:5555 -U username:password

Значит можно допилить. Я, вероятно, этим займусь, когда руки дойдут. За одно избавлюсь от вызова exec() - лучше использовать функции расширения.

Pochemuk Jan 6 2023 at 13:46

Как допилите — свистните?

Я почему спрашиваю? Когда-то тоже парсил кое-какую инфу с другого сайта. Сначала напрямую по HTTP. Потом по HTTPS, когда он на него перешел. По HTTP через прокси тоже получалось. А вот через HTTPS через прокси — не срослось.

Я бы хоть посмотрел — ЧЯДНТ?

sepetov Jan 6 2023 at 13:53

Хорошо! Примеры есть, где можно потестировать, но всегда нужно искать время :-)

support917 Jan 6 2023 at 14:40

Не ищи для этого какие-то либы 1999 года в этот раз)) Cмотри сразу PSR7 совместимые, Guzzle например, тогда твое решение будет совместимо с миром, независимо от ОС и окружения

sepetov Jan 6 2023 at 15:51

Кстати, так возможно и будет :-) Для редких задач я часто выбираю какой-то новый для себя инструмент. Правда, новым он может быть только для меня.

Maccimo Jan 6 2023 at 13:25

Статьи (и новости) я взял не все, а только на самые холиварные темы.

Ценные комментарии — прежняя фишка хабра — ушли в прошлое. Котиков и
маникюр в комментариях ещё не обсуждают, но исходный код и образцы конфигов
из комментариев почти исчезли

В холиварных темах их никогда и не было. Новости же это 146% мусор для подмахивания власти. Там самое интересное — посмотреть, какое дно на этот раз пробила «информационная служба Хабра».

Основные изменения кармы происходят в комментариях, а не в результате публикаций*.

Капитан Очевидность, вы вернулись! Ура!

По теме:

Данные проще вытянуть из JSON-ов, которыми обмазана «новая версия» Хабрахабра.

Например, вы: sepetov
Или я: Maccimo

Если всё же парсить HTML, то разбить скачивание HTML и его парсинг на отдельные фазы и поискать для своего любимого ЯП аналог JSOUP. Это удобнее, чем SQL в данном случае.

sepetov Jan 6 2023 at 13:39

Красиво. Чем-то похоже на phpQuery.

JSON - это хорошо, но на нужном мне сайте ничего нет (он из статичного html, периодически обновляется каким-то генератором).

Domorost Jan 6 2023 at 16:20

Основные изменения кармы происходят в комментариях, а не в результате публикаций*.

Увы, кажется Хабр иначе не работает, зачастую вижу пользователей с большим количеством кармы и без статей, которые намеренно стараются писать псевдо-интеллектуальные провокационные комментарии.

Последнее время мне начинает казаться что это могут быть собственно сотрудники этого ресурса. Крайне важно создавать видимость активности под проходными статьями, устраивать споры, лишь бы хлеба-зрелищ и попыток заставить автора делать все больше контента, дабы поправить/получить эту самую карму.

sepetov Jan 6 2023 at 16:26

Но без статей карма не может быть выше 4. Исключение - если потом просто убрать свои публикации в черновики. Хотя в какой-то мере 4 - это тоже много, но хотя бы в минус не даёт голосовать и сливать оппонентов чисто из личной неприязни.

koreychenko Jan 6 2023 at 17:24

Тот редкий момент, когда по заголовку пришел в статью, чтобы поставить минус, но внутри оказалась такая забористая наркомания, что в итоге поставил плюс.

sepetov Jan 7 2023 at 03:25

Спасибо, что вы это прочитали!

babilonsuxx Jan 7 2023 at 16:53

Спасибо. Давно во время чтения статей на хабре не улыбался.

sepetov Jan 7 2023 at 16:58

У меня ещё имеется черновик статьи в похожем стиле, но опубликую не скоро - нехватка свободного времени :-)

SakhalinDDF Jan 18 2023 at 17:31

Несколько раз сталкивался с подобной задачей - сначала использовал старичка phpQuery, но в какой то момент наткнулся на компонент из симфони - DomCrawler. У нее чуть больше функционала, чем просто парсить контент, но с этим она справляется на ура.

Парсить DOM структуру можно как с помощью xpath, так и css селекторов

sepetov Jan 18 2023 at 17:32

Это очень хороший компонент, но я его буквально одним глазком посмотрел. Спасибо.

empenoso Dec 19 2024 at 11:50

Большинство пользователей с высокой кармой весьма немногословны,

скорее всего чтобы не сказать лишнего и не лишиться её части :)