Pull to refresh

PageRank-сеть разнородных объектов

Reading time2 min
Views1.1K
Данная заметка является развитием предыдущего текста, "Проблемы обобщения PageRank". Суть в том, чтобы более-менее полноценно рейтинговать людей с помощью алгоритма PageRank. Почему именно PageRank? Ну, конечно можно составить что-то типа суммы-анкеты из разных слагаемых и вычислять ее для каждого пользователя. Например, образование среднее столько-то баллов, высшее столько-то, должность офисный планктон столько-то, топ-менеджер столько-то, ученая степень есть/нету, опыт работы столько-то лет (вычисляем функцию от количества лет), рейтинг на Хабре такой-то, количество френдов в Фейсбуке столько-то и т. д. и т. п. Мало что список получится длинным и непонятно, учтете ли вы все наиболее значимые факторы. Но понадобится еще каким-то образом (скорее «на глазок») определить коэффициенты значимости при каждом слагаемом, и это тоже задача. Метод PageRank дает на мой взгляд любопытный способ решить эту последнюю задачу.

В упомянутом тексте я предлагал расширенно трактовать понятие голоса в методе PR. Например, наличие ученой степени будет «голосовать» за ее обладателя. Насколько сильным будет этот голос? — зависит от того, сколько авторитетных людей ссылаются (каким-то образом упоминают) ученую степень как значимый фактор. Иначе говоря, мы должны включить абстрактный объект «ученая степень» в нашу PR-сеть наряду с объектами-людьми, и от него будут идти не только исходящие ссылки, но и входящие.

Или скажем опыт работы. Условно говоря, работа в Яндексе и Рамблере имеет разную значимость в глазах IT-сообщества, т.е. эти две сущности будут иметь разные значения PR в данной сети (хотя традиционные показатели PR и ТИЦ тоже можно определить как абстрактные рейтингуемые сущности и учитывать голоса к ним и от них). С конкретным пользователем связываем абстрактную сущность «опыт работы», к которой будут идти ссылки от Яндекса или Рамблера, если он там работал, и придавать большую или меньшую значимость опыту работы данного пользователя.

Таким образом, ставя задачу рейтинговать людей, мы фактически заодно будем рейтинговать объекты разных типов — организации, контент, звания и должности и т. п.

В завершении хотелось бы слегка подумать также, как решить другую упомянутую проблему — учет всех наиболее значимых факторов при определении PeopleRank человека. Есть некие общие положения, про которые я раньше писал, например, если вас френдят/комментируют/читают крутые люди, значит скорей всего вы тоже круты. Такую информацию в принципе можно извлечь из соцсетей. Можно допустим определить также сущность «проекты», в которых пользователь участвовал. Такие вещи и особенно конкретику (как ввод конкретных проектов, организаций) наверно лучше возложить на пользователей вебдванольным способом — если кто-либо считает, что для правильного определения его PR нужно добавить в сеть новую сущность, он ее добавляет. Подобно тому как сайты добавляются к сети, которые идексируют Яндекс и Гугл.
Tags:
Hubs:
Total votes 4: ↑3 and ↓1+2
Comments5

Articles