lxml — обвязка над libxml2\libxslt, так что ничего странного в его скорости нет. Ещё не упомянут 4Suite, но поскольку он целиком написан на питоне, то работает на порядок медленее.
В lxml нельзя достучаться до чистого sax-интерфейса, даже при iterparse приходится вставать на голову и применять такие трюки, например, для экономии памяти — www.ibm.com/developerworks/xml/library/x-hiperfparse/
Но у lxml есть очень большое преимущество — активная разработка и обратная связь. Штефан (Stefan Behnel) всегда оперативно реагирует на просьбы о помощи и на feature requests. В общем, мы используем именно lxml и довольны настолько, насколько можно быть довольными при работе с xml.
Я от kde 4 плачу горькими слезами. На рабочей машине привычная 3.5, на макбуке — понятно что, и при попытке попользоваться kde 4 на домашнем десктопе каждый раз случается шок — не могу сделать вообще ничего.
Ещё раз повторю — в один момент времени мы подключены к одному ip-адресу только однажды, в рамках одной сессии выкачки. За эту сессию мы выкачиваем, к примеру, максимум 5 документов с одного хоста. С вами ситуация такая — выкачали 5 документов с хоста a.habrahabr.ru, больше этот хост не трогаем некий промежуток времени, но в этой же сессии выкачали 5 документов с хоста a1.habrahabr.ru и так далее. Crawl-delay cмотрит на хост, а не на ip-адрес. Обработка ip-адреса — мысль хорошая, но никто не даст гарантии, что у данного хоста завтра не поменяется ip.
С такой же ситуацией (много хостов на одном ip) обычно сталкиваются фри-хостеры, но у них это затруднений не вызывает.
Тем не менее, обращаю внимание на то, что у вас на одном ip-адресе находится более 25 000 хостов. Мы поддерживаем Crawl-delay и качаем не более некоего разумного количества документов с одного хоста в секунду и при этом не устанавливаем одновременного подключения к одному ip-адресу с нескольких наших адресов. Однако в данной вырожденной ситуации именно такое кол-во хостов привело к данной ситуации.
Кроме того, в связи с недавними изменениями вашего дизайна изменились практически все урлы документов, но наш робот перекачивал старые урлы и получал HTTP-ответ 302. Один такой ответ очень маленького размера, и nginx должен быстро с ними справляться.
Вариант решения данной проблемы — настроить ваши сервера на ограничение скорости отдачи конкретному user-agent. С нашей стороны повторения такой ситуации произойти не должно и активность робота постепенно сойдёт на нет, так как база урлов обновилась.
С уважением,
Дмитрий Федорук
Разработчик поискового отдела Рамблера
trac? Комментарии к задаче можно писать прямо в её постановке, можно отдельным комментарием. Везде используется вики-синтаксис. Очень удобна перевязка с svn, есть source-браузер, хорошо раскрашиваются diff-ы и прочее.
В lxml нельзя достучаться до чистого sax-интерфейса, даже при iterparse приходится вставать на голову и применять такие трюки, например, для экономии памяти — www.ibm.com/developerworks/xml/library/x-hiperfparse/
Но у lxml есть очень большое преимущество — активная разработка и обратная связь. Штефан (Stefan Behnel) всегда оперативно реагирует на просьбы о помощи и на feature requests. В общем, мы используем именно lxml и довольны настолько, насколько можно быть довольными при работе с xml.
С такой же ситуацией (много хостов на одном ip) обычно сталкиваются фри-хостеры, но у них это затруднений не вызывает.
Мы сожалеем о том, что доставили вам неудобства.
Тем не менее, обращаю внимание на то, что у вас на одном ip-адресе находится более 25 000 хостов. Мы поддерживаем Crawl-delay и качаем не более некоего разумного количества документов с одного хоста в секунду и при этом не устанавливаем одновременного подключения к одному ip-адресу с нескольких наших адресов. Однако в данной вырожденной ситуации именно такое кол-во хостов привело к данной ситуации.
Кроме того, в связи с недавними изменениями вашего дизайна изменились практически все урлы документов, но наш робот перекачивал старые урлы и получал HTTP-ответ 302. Один такой ответ очень маленького размера, и nginx должен быстро с ними справляться.
Вариант решения данной проблемы — настроить ваши сервера на ограничение скорости отдачи конкретному user-agent. С нашей стороны повторения такой ситуации произойти не должно и активность робота постепенно сойдёт на нет, так как база урлов обновилась.
С уважением,
Дмитрий Федорук
Разработчик поискового отдела Рамблера
самый простой путь их получить - вбить в запрос "новости"
http://beta.rambler.ru/srch?query=%D0%BD…
Апри постановке задач, в конце концов, необязательно использовать вики-синтаксис, с моей точки зрения - но у нас не-гики в трак не пишут :)