Комментарии 23
Нормально придумано - откручивать крестообразный шуруп плоской отверткой.
DOM - это ведь та же NoSQL база данных, где данные хранятся не линейно, а как матрешка, и доступ к ним удобно получать по цепочке, а не как из плоской таблицы.
А кто ж будет спорить, что теги вложены друг в друга как матрёшка? Когда интересует структура у документа, а не только сами данные, htmlSQL не подходит.
Когда по-быстрому нужны сами данные - вполне подходит. Например, цель: выбрать все картинки в документе.
Крипово, но почему бы и нет?
Надо еще чутка причесать (хоть как-то к PSR привести) и оформить в композер пакетом :)
Такой функциональности нет (в явном виде). Сам curl, разумеется, имеет ключ:
--proxy 11.22.33.44:5555 -U username:password
Значит можно допилить. Я, вероятно, этим займусь, когда руки дойдут. За одно избавлюсь от вызова exec() - лучше использовать функции расширения.
Я почему спрашиваю? Когда-то тоже парсил кое-какую инфу с другого сайта. Сначала напрямую по HTTP. Потом по HTTPS, когда он на него перешел. По HTTP через прокси тоже получалось. А вот через HTTPS через прокси — не срослось.
Я бы хоть посмотрел — ЧЯДНТ?
Не ищи для этого какие-то либы 1999 года в этот раз)) Cмотри сразу PSR7 совместимые, Guzzle например, тогда твое решение будет совместимо с миром, независимо от ОС и окружения
Статьи (и новости) я взял не все, а только на самые холиварные темы.
Ценные комментарии — прежняя фишка хабра — ушли в прошлое. Котиков иВ холиварных темах их никогда и не было. Новости же это 146% мусор для подмахивания власти. Там самое интересное — посмотреть, какое дно на этот раз пробила «информационная служба Хабра».
маникюр в комментариях ещё не обсуждают, но исходный код и образцы конфигов
из комментариев почти исчезли
Основные изменения кармы происходят в комментариях, а не в результате публикаций*.Капитан Очевидность, вы вернулись! Ура!
По теме:
Данные проще вытянуть из JSON-ов, которыми обмазана «новая версия» Хабрахабра.
Например, вы: sepetov
Или я: Maccimo
Если всё же парсить HTML, то разбить скачивание HTML и его парсинг на отдельные фазы и поискать для своего любимого ЯП аналог JSOUP. Это удобнее, чем SQL в данном случае.
Основные изменения кармы происходят в комментариях, а не в результате публикаций*.
Увы, кажется Хабр иначе не работает, зачастую вижу пользователей с большим количеством кармы и без статей, которые намеренно стараются писать псевдо-интеллектуальные провокационные комментарии.
Последнее время мне начинает казаться что это могут быть собственно сотрудники этого ресурса. Крайне важно создавать видимость активности под проходными статьями, устраивать споры, лишь бы хлеба-зрелищ и попыток заставить автора делать все больше контента, дабы поправить/получить эту самую карму.
Тот редкий момент, когда по заголовку пришел в статью, чтобы поставить минус, но внутри оказалась такая забористая наркомания, что в итоге поставил плюс.
Спасибо. Давно во время чтения статей на хабре не улыбался.
Несколько раз сталкивался с подобной задачей - сначала использовал старичка phpQuery, но в какой то момент наткнулся на компонент из симфони - DomCrawler. У нее чуть больше функционала, чем просто парсить контент, но с этим она справляется на ура.
Парсить DOM структуру можно как с помощью xpath, так и css селекторов
Парсинг HTML с помощью PHP и SQL. Немного провокационный пример с анализом пользователей Хабра