Задача не из легких. Взять, к примеру, Хабр. Казалось бы, по потокам, по хабам все разнесено, но все равно периодически попадаются интересные статьи в сторонних хабах или, что еще тяжелее отследить, интересные комменты к неинтересным статьям. Если сделать персональную фильтрацию на основе уже имеющейся классификации по потокам/хабам/оценкам статей, есть шанс пропустить что-то интересное. Даже коллаборативная фильтрация в случае попадания в большую группу юзеров со схожими интересами не дает 100%-й результат. Если же классифицировать под определенного человека, нужно собирать огромную статистику по тем статьям, которые ему понравились и не понравились, как-то выделять признаки, почему «статья понравилась» или почему «нет». И надо принять во внимание, что интересы человека меняются с течением времени = в процессе сбора статистики. Да и критериев для классификации «понравилась/не понравилась» будет все больше. В общем, как это совсем персонифицировать мне не очень понятно. Скорее можно отрубить явный мусор по ключевым словам и пополнять базу ключевых слов, что-то вроде борьбы со спамом. Либо довольствоваться не 100%-ым результатом. В любом случае, есть шанс пропустить что-то действительно интересное.
«137 секунд»