Похожих проектов для PHP не видел.
WebHarvest нашли не сразу. До этого много подобных задач связанных с грабом решали, но они обычно делаются один раз, чтобы собрать инфу. А то был проект на котором одно из требований — изменяемые правила процессинга страниц, чтобы при изменении лейаута сайта можно было быстро отреагировать и на уровне конфигов все подправить.
Граб страниц с помощью WebHarvest