Всем привет!
Я активный пользователь open-source фрэймворка
Grab (
itforge уже писал о нем
здесь и
здесь) и 1/2 проекта
GrabLab (который занимается собственно коммерческой эксплуатацией фрэймворка). Т.к. парсим сайты мы часто, помногу и задания как правило совершенно не похожи друг на друга, хотелось бы поделится своим опытом в вопросе построения типичного парсинг проекта.
Немного про инструментарий который помогает мне в работе
В качестве рабочего браузера я использую FireFox с плагинами
HttpFox (анализировать входящий/исходящий http трафик),
XPather (позволяет проверять xpath выражения),
SQLite Manager (просмотр sqlite таблиц), код набираю в emacs, где активно использую сниппеты (YASnippets) для часто встречающихся конструкций.
Из-за специфики фрэймворка, как правило, на первом этапе сайт полностью (или если данных много — то частично, для удобства последующей разработки) сохраняется в локальный кэш на базе mongodb, что очень экономит время, т.к. считывание страниц идет из кэша.