Согласен. Gearman неплох если делаешь сеть краулеров а-ля гугл на нескольких разных физических машинах или даже датацентрах. Когда много разного ПО… А тут автор предложил простенький RSS грабер на несколько десятков источников, и поразмышлял, как бы это поудобнее и попроще реализовать.
Только вот последнее время на хабре у комментаторов пошла тенденция «стрелять из пушки по воробьям». И если вы пытаетесь решить простую задачу простым способом, то вас могут обозвать дилетантом.
Мне кажется, что во многих случаях удобно разделить грабер и обработчик.
Есть список URL-ов в БД. Грабер берет очередную порцию URL-ов, и в несколько потоков выкачивает их, загружает сырой результат в ту же БД. Затем берет следующую порцию и т.д.
Совершенно независимо, параллельно с этим работает обработчик (парсер). Когда в базе появляются новые сырые данные он начинает их обрабатывать уже по очереди. Возможно этот обработчик сам добавляет новые URL-лы для грабера, например если это краулер.
Не всегда есть возможность установить заказчику «правильное решение». Иногда все приходится решать на голом PHP.
А еще я полагаю, что если никто не будет изобретать усовершенствованные велосипеды, в нашем мире не будет появляться ничего нового. Так и будем все делать, на «старом и проверенном».
Как, например, детально описать дизайн? Практически никак, разве что нарисовать его прямо в ТЗ.
Возможны и другие разговоры, хотя это все же не частое явление: «В ТЗ у нас написано так, но я считаю что вы выполнили это не так как написано. Акты не подпишу, денег не отдам. Переделывайте как я считаю нужным.» И тут у нас появляются варианты: остаться без оплаты, передалывать работу или отстаивать свою правоту в суде.
Только вот последнее время на хабре у комментаторов пошла тенденция «стрелять из пушки по воробьям». И если вы пытаетесь решить простую задачу простым способом, то вас могут обозвать дилетантом.
Есть список URL-ов в БД. Грабер берет очередную порцию URL-ов, и в несколько потоков выкачивает их, загружает сырой результат в ту же БД. Затем берет следующую порцию и т.д.
Совершенно независимо, параллельно с этим работает обработчик (парсер). Когда в базе появляются новые сырые данные он начинает их обрабатывать уже по очереди. Возможно этот обработчик сам добавляет новые URL-лы для грабера, например если это краулер.
А еще я полагаю, что если никто не будет изобретать усовершенствованные велосипеды, в нашем мире не будет появляться ничего нового. Так и будем все делать, на «старом и проверенном».
Как, например, детально описать дизайн? Практически никак, разве что нарисовать его прямо в ТЗ.
Возможны и другие разговоры, хотя это все же не частое явление: «В ТЗ у нас написано так, но я считаю что вы выполнили это не так как написано. Акты не подпишу, денег не отдам. Переделывайте как я считаю нужным.» И тут у нас появляются варианты: остаться без оплаты, передалывать работу или отстаивать свою правоту в суде.