JiLiZART Sep 9 2009 at 13:18

парсим сайты легко и непринуждённо вместе с phpQuery

3 min

112K

jQuery*

+34

Comments 35

viperet Sep 9 2009 at 13:35

Спасибо, интересно было почитать. А по поводу производительности — вы сравнивали насколько это быстрее/медленнее чем парсить используя регекспы?

KorP Sep 9 2009 at 13:37

сегодня с утра как раз ручками писал… особо писать нечего кроме регулярки

andrew_tch Sep 9 2009 at 13:43

работает. но кривота гербедж коллектора в php такова что на парсинге сайтов в 20 000 страниц не успевает удалять объекты (которые удаляются implicitly) скрипт отжирает до гига памяти. мораль — учим XPath & DOMXML

andreypaa Sep 9 2009 at 13:49

Таким способом «XPath & DOMXML» память намного экономнее используется?

andrew_tch Sep 9 2009 at 13:52

ну метров 102-105 на неоптимизированном php-cli. скорость работы тоже на пару порядков выше — 20-30 минут вместо 4 часов на phpquery. да и кода меньше получается.

andreypaa Sep 9 2009 at 13:58

Спасибо за консультацию, тоже в принципе достаточно много, но как говорится, за удобство приходится платить. Если памяти мало, то мой вывод — лучше использовать регулярные выражения.

andrew_tch Sep 9 2009 at 14:05

это user memory на процесс. memory_get_usage дает от десяти до 30 мегабайт.

ну хз хз. ругйлярки мне не подошли, потому что приходилось парсить выражения типа «h2 который находится в том же div что и третья таблица в документе» — без классов и id. xpath это делает одной строкой — //table[3]/../h2

andreypaa Sep 9 2009 at 13:47

И еще интересно, как на счет потребления памяти по сравнению с регулрными выражениями?
Я конечно не тестировал, но предполагаю, что ругулярки будут выигрывать на порядок.

remal Sep 9 2009 at 14:40

Регулярные выражения не подходят для парсинга xml-подобного документа. Дело не в скорости, а в сложности.

ebogdanov Sep 9 2009 at 13:53

Штука очень забавная. Правда не без глюков.
А насчет регулярок — да, быстрее, но с ней гораздо проще, особенно при разборе сложных докментов.

JiLiZART Sep 9 2009 at 15:22

Именно это удобство меня и зацепило в ней.
Насчёт глюков, библиотека ещё молодая, если судить по дате публикации архивов =) Да и документированность плохая, радуют «Enter description here...» в коде =)

Nc_Soft Sep 9 2009 at 14:58

А если документ невалидный в плане хмл?

alexg Sep 9 2009 at 15:16

Т.к. phpQuery использует DOMXML & XPath внутри, то и отношение к malformed xml у него аналогичное, поэтому наверное лучше перед загрузкой прогнать через Tidy

ksn Sep 9 2009 at 15:18

Хороший инструмент. спасибо!
Как бы ещё добраться до контента, генерируемого динамически, например тем же Javascript'ом?

l_nagash Sep 9 2009 at 17:59

тем же javascript'ом и добраться :)
передать на сервер можно через ajax

ksn Sep 9 2009 at 18:39

Не совсем понял что Вы Имеете в виду. Вы предлагаете с помощью phpquery решить этот вопрос или «вручную» разбираться в ява скрипте? А если там какое-либо сложное высчитывамие переменных для запроса или не запрос вовсе, а какой-нибудь document.write, но опять-таки со сложновысчитанными параметрами?

tkf Sep 9 2009 at 19:06

Вижу очень безумную идею, расширение к firefox, которое дампит данные по факту загрузки страницы и отсылает их на сервер. где они уже и сохраняются, при этом можно firefox автоматизировать, пусть сам ходит по страницам и отсылает данные, жаль что это клиент side

l_nagash Sep 10 2009 at 06:38

нет. Если проблема частного характера, то можно тем же jquery повесить обработчики и генерируемый контент пересылать на сервер.
Если общего и неизвестно какие функции генерируют контент, можно проверять блоки данных на изменение с первоначальной информацией.
вообще к задаче лучше подходить практически — решать конкретно то что нужно делать. потом и обобщить можно…

ksn Sep 10 2009 at 06:58

Можете привести пример задачи общего характера?

l_nagash Sep 10 2009 at 07:47

притянутый за уши только :)
к примеру есть несколько сайтов с разной структурой, где стоят какие то информеры, которые тянуться уже после загрузки страницы. расположение неизвестно.

имхо, даже частная задача будет встречаться редко и писать для этого отдельную программку смысла нет, видимо по этому и нету такого в phpQuery

ksn Sep 10 2009 at 08:23

А как Вы предлагаете

проверять блоки данных на изменение с первоначальной информацией

если они подгружатеся динамически уже после загрузки страницы?

l_nagash Sep 10 2009 at 19:52

без понятия. надо рассматривать конкретную задачу :)

***теоретически… допустим у нас есть сайт, которые разбит по блокам с какими то id
при первом парсинге запоминаем эти блоки и их длину (можно на клиенте str.length)
проходимся опять по блокам и сраниваем их длину. если контента стало больше — появилось свеженькое.

copist Sep 9 2009 at 19:23

Афигенная штука, если надо распарсить сложный древовидный документ. На одной странице работает терпимо, а весь сайт парит медленно. За удобство приходится платить?

Думаю, это библиотека подходит для использования в условиях выделенного сервера с возможностью запуска PHP без ограничения памяти и времени исполнения, а на виртуальном хостинге — обрывается.

sulla Sep 10 2009 at 05:33

Как вариант работа с домашнего сервера с предварительной загрузкой страницы через wget.
+ прикручиваем потоки для php, время должно сократиться, а вот загрузка (как памяти так и процессорных мощностей) может возрасти, вопрос только в каких пределах.

ksn Sep 10 2009 at 08:45

А почему именно wget'ом хотите забирать, а не, например, curl'ом?

sulla Sep 10 2009 at 09:28

а) Функционала больше.
Иногда необходимо сдёрнуть всю страницу + уровни лежащие ниже, или же отзеркалить структуру в уже сущевствующую папку для проверки произошедших изменений.

б) привык =)

Хотя иногда проще парсить страницы на лету perl + regex'ы

Zaakk Aug 1 2011 at 11:48

При выводе скаченной страницы без парсинга все выклядит нормально, после парсинга бьются русские буквы? как решить эту проблему?

JiLiZART Aug 2 2011 at 02:28

возможно сам фаил скрипта не в той кодировке или кодировка сайта отлична от UTF-8

Zaakk Aug 2 2011 at 10:51

в том то и дело, что сайт который паршу — утф, скрипт — утф, все утф

JiLiZART Aug 2 2011 at 10:53

Проверяйте настройки DOM расширения для php или попробуйте на другой установке Php

Zaakk Aug 2 2011 at 10:58

в локале (MacOSX Lion) и на сервере (Debian) результат одинаков

isagadji Sep 26 2012 at 13:38

echo iconv("windows-1251", "utf-8", $content);

Zaakk Sep 27 2012 at 12:05

Да вы не просто капитан, вы подполковник очевидность. Проблема была с разной разрядностью символов.

Shuriban Nov 11 2012 at 04:34

как исправил?

MrAlexArt Apr 26 2014 at 11:47

уберите указание кодировки в коде

$doc = phpQuery::newDocumentHTML($data['document']);

Мне помогло

	public static function newDocumentHTML($markup = null, $charset = null) {
		$contentType = $charset
			? ";charset=$charset"
			: '';
		return self::newDocument($markup, "text/html{$contentType}");
	}