Comments / Profile of snapper / Habr

Дмитрий Федорук @snapper

User

ProfileArticles5PostsNewsComments82

Как я учился работать с XML

snapper Jun 7 2009 at 19:14

Нет, потому как лечим, ищем обходные пути, выкидываем xml вообще и живём счастливо.

Look

Как я учился работать с XML

snapper Jun 7 2009 at 19:09

возьмите машину с 4 gb памяти и отпарсите на ней файл размером гигабайта в 2 через dom. умереть не умрёт, конечно, но на жизнь это будет мало похоже.

Look

Как я учился работать с XML

snapper Jun 7 2009 at 18:59

lxml — обвязка над libxml2\libxslt, так что ничего странного в его скорости нет. Ещё не упомянут 4Suite, но поскольку он целиком написан на питоне, то работает на порядок медленее.

В lxml нельзя достучаться до чистого sax-интерфейса, даже при iterparse приходится вставать на голову и применять такие трюки, например, для экономии памяти — www.ibm.com/developerworks/xml/library/x-hiperfparse/

Но у lxml есть очень большое преимущество — активная разработка и обратная связь. Штефан (Stefan Behnel) всегда оперативно реагирует на просьбы о помощи и на feature requests. В общем, мы используем именно lxml и довольны настолько, насколько можно быть довольными при работе с xml.

Look

Как я учился работать с XML

snapper Jun 7 2009 at 18:53

sax нужен, когда данных много. много-много-много, сотни мегабайт — dom умирает в таких случаях.

Look

Рынок ПК стагнирует, Microsoft переключается на ИИ

snapper Mar 3 2009 at 17:40

Только всё-таки Лора, а не Лаура.

Look

Скачивание Opera для Mac OS X

snapper Feb 16 2009 at 11:17

Хм, у меня творилось то же и под FreeBSD. Я грешил конкретно на свою инсталляцию, но баг-репорт им всё равно послал.

Look

Консольные хитрости Питон: история команд + автодополнение

snapper Dec 4 2008 at 12:35

ipython?

Look

Анонсирован релиз Linux дистрибутива Fedora 10

snapper Nov 26 2008 at 16:59

Я от kde 4 плачу горькими слезами. На рабочей машине привычная 3.5, на макбуке — понятно что, и при попытке попользоваться kde 4 на домашнем десктопе каждый раз случается шок — не могу сделать вообще ничего.

Look

Делу время: как не отвлекаться во время работы

snapper Oct 25 2008 at 18:09

тьфу, time :) а опечатка забавная.

Look

Делу время: как не отвлекаться во время работы

snapper Oct 25 2008 at 18:08

Это же основы там-менеджмента.

Look

Smashing Pumpkins пошли ещё дальше Radiohead

snapper Sep 4 2008 at 07:33

Я порядка £15 =)

Look

Как остановить Рамблер?

snapper Aug 29 2008 at 13:49

Мне кажется, ясно описана проблема и методы её решения. Дальше дело за вами.

Look

Как остановить Рамблер?

snapper Aug 27 2008 at 09:49

Ещё раз повторю — в один момент времени мы подключены к одному ip-адресу только однажды, в рамках одной сессии выкачки. За эту сессию мы выкачиваем, к примеру, максимум 5 документов с одного хоста. С вами ситуация такая — выкачали 5 документов с хоста a.habrahabr.ru, больше этот хост не трогаем некий промежуток времени, но в этой же сессии выкачали 5 документов с хоста a1.habrahabr.ru и так далее. Crawl-delay cмотрит на хост, а не на ip-адрес. Обработка ip-адреса — мысль хорошая, но никто не даст гарантии, что у данного хоста завтра не поменяется ip.

С такой же ситуацией (много хостов на одном ip) обычно сталкиваются фри-хостеры, но у них это затруднений не вызывает.

Look

Как остановить Рамблер?

snapper Aug 27 2008 at 08:55

Здравствуйте,

Мы сожалеем о том, что доставили вам неудобства.

Тем не менее, обращаю внимание на то, что у вас на одном ip-адресе находится более 25 000 хостов. Мы поддерживаем Crawl-delay и качаем не более некоего разумного количества документов с одного хоста в секунду и при этом не устанавливаем одновременного подключения к одному ip-адресу с нескольких наших адресов. Однако в данной вырожденной ситуации именно такое кол-во хостов привело к данной ситуации.

Кроме того, в связи с недавними изменениями вашего дизайна изменились практически все урлы документов, но наш робот перекачивал старые урлы и получал HTTP-ответ 302. Один такой ответ очень маленького размера, и nginx должен быстро с ними справляться.

Вариант решения данной проблемы — настроить ваши сервера на ограничение скорости отдачи конкретному user-agent. С нашей стороны повторения такой ситуации произойти не должно и активность робота постепенно сойдёт на нет, так как база урлов обновилась.

С уважением,
Дмитрий Федорук
Разработчик поискового отдела Рамблера

+15

Look

Рамблер открыл вертикальный поиск для всех желающих.

snapper Apr 9 2008 at 06:40

есть новости, но мы не всегда считаем их релевантными.
самый простой путь их получить - вбить в запрос "новости"
http://beta.rambler.ru/srch?query=%D0%BD…

-1

Look

Opera прошла Acid3

snapper Mar 27 2008 at 10:50

о! с последним билдом я не могу войти в gmail обычным образом, а по этой ссылке всё работает :))

Look

Практический XSLT. Использование в качестве шаблонизатора

snapper Mar 25 2008 at 09:02

использовать count(list/item) и в зависимости от этого строить нужное кол-во столбцов и строк в них.

Look

Реально работающая система управления разработкой

snapper Mar 23 2008 at 14:01

Нет, письма от себя приходят.

Апри постановке задач, в конце концов, необязательно использовать вики-синтаксис, с моей точки зрения - но у нас не-гики в трак не пишут :)

Look

Реально работающая система управления разработкой

snapper Mar 22 2008 at 10:35

Ну вот, стоило отвлечься на краткое описание достоинств, и меня опередили :))

Look

Реально работающая система управления разработкой

snapper Mar 22 2008 at 10:34

trac? Комментарии к задаче можно писать прямо в её постановке, можно отдельным комментарием. Везде используется вики-синтаксис. Очень удобна перевязка с svn, есть source-браузер, хорошо раскрашиваются diff-ы и прочее.

Look

2 3 4 5