Search
Write a publication
Pull to refresh
15
0
Дмитрий Федорук @snapper

User

Send message
Нет, потому как лечим, ищем обходные пути, выкидываем xml вообще и живём счастливо.
возьмите машину с 4 gb памяти и отпарсите на ней файл размером гигабайта в 2 через dom. умереть не умрёт, конечно, но на жизнь это будет мало похоже.
lxml — обвязка над libxml2\libxslt, так что ничего странного в его скорости нет. Ещё не упомянут 4Suite, но поскольку он целиком написан на питоне, то работает на порядок медленее.

В lxml нельзя достучаться до чистого sax-интерфейса, даже при iterparse приходится вставать на голову и применять такие трюки, например, для экономии памяти — www.ibm.com/developerworks/xml/library/x-hiperfparse/

Но у lxml есть очень большое преимущество — активная разработка и обратная связь. Штефан (Stefan Behnel) всегда оперативно реагирует на просьбы о помощи и на feature requests. В общем, мы используем именно lxml и довольны настолько, насколько можно быть довольными при работе с xml.
sax нужен, когда данных много. много-много-много, сотни мегабайт — dom умирает в таких случаях.
Только всё-таки Лора, а не Лаура.
Хм, у меня творилось то же и под FreeBSD. Я грешил конкретно на свою инсталляцию, но баг-репорт им всё равно послал.
Я от kde 4 плачу горькими слезами. На рабочей машине привычная 3.5, на макбуке — понятно что, и при попытке попользоваться kde 4 на домашнем десктопе каждый раз случается шок — не могу сделать вообще ничего.
тьфу, time :) а опечатка забавная.
Это же основы там-менеджмента.
Мне кажется, ясно описана проблема и методы её решения. Дальше дело за вами.
Ещё раз повторю — в один момент времени мы подключены к одному ip-адресу только однажды, в рамках одной сессии выкачки. За эту сессию мы выкачиваем, к примеру, максимум 5 документов с одного хоста. С вами ситуация такая — выкачали 5 документов с хоста a.habrahabr.ru, больше этот хост не трогаем некий промежуток времени, но в этой же сессии выкачали 5 документов с хоста a1.habrahabr.ru и так далее. Crawl-delay cмотрит на хост, а не на ip-адрес. Обработка ip-адреса — мысль хорошая, но никто не даст гарантии, что у данного хоста завтра не поменяется ip.

С такой же ситуацией (много хостов на одном ip) обычно сталкиваются фри-хостеры, но у них это затруднений не вызывает.
Здравствуйте,

Мы сожалеем о том, что доставили вам неудобства.

Тем не менее, обращаю внимание на то, что у вас на одном ip-адресе находится более 25 000 хостов. Мы поддерживаем Crawl-delay и качаем не более некоего разумного количества документов с одного хоста в секунду и при этом не устанавливаем одновременного подключения к одному ip-адресу с нескольких наших адресов. Однако в данной вырожденной ситуации именно такое кол-во хостов привело к данной ситуации.

Кроме того, в связи с недавними изменениями вашего дизайна изменились практически все урлы документов, но наш робот перекачивал старые урлы и получал HTTP-ответ 302. Один такой ответ очень маленького размера, и nginx должен быстро с ними справляться.

Вариант решения данной проблемы — настроить ваши сервера на ограничение скорости отдачи конкретному user-agent. С нашей стороны повторения такой ситуации произойти не должно и активность робота постепенно сойдёт на нет, так как база урлов обновилась.

С уважением,
Дмитрий Федорук
Разработчик поискового отдела Рамблера
есть новости, но мы не всегда считаем их релевантными.
самый простой путь их получить - вбить в запрос "новости"
http://beta.rambler.ru/srch?query=%D0%BD…
о! с последним билдом я не могу войти в gmail обычным образом, а по этой ссылке всё работает :))
использовать count(list/item) и в зависимости от этого строить нужное кол-во столбцов и строк в них.
Нет, письма от себя приходят.

Апри постановке задач, в конце концов, необязательно использовать вики-синтаксис, с моей точки зрения - но у нас не-гики в трак не пишут :)
Ну вот, стоило отвлечься на краткое описание достоинств, и меня опередили :))
trac? Комментарии к задаче можно писать прямо в её постановке, можно отдельным комментарием. Везде используется вики-синтаксис. Очень удобна перевязка с svn, есть source-браузер, хорошо раскрашиваются diff-ы и прочее.

Information

Rating
Does not participate
Location
Dublin, Dublin, Ирландия
Date of birth
Registered
Activity