Я не думаю, что эта выборка является качественной, она не репрезентативна в том плане, что по факту используется ограниченное число авторов текстов (журналисты сайтов, их сравнительно мало), из-за чего могут быть ошибки связанные с «обучился на стиль», а по поводу участия человека, так его тут нет, только запуск программы.
z использовал ту штуку, которая, например, на ленте называется «рубрика» (то есть каждая статья отнесена к политике, экономике, спорту и т.п.), ее можно получить как просто качая статьи из категорий, и так же она есть непосредственно в html разметке страницы статьи
Сам занимался похожим, но решил задачу по-другому: брал новостные сайты (там тексты уже размечены человеком :) ), достаточно пары тройки крупных сайтов для нескольких десятков тысяч текстов.
А почему использована упрощенная модель перевода в градации серого, а не какая-нибудь каноничная с коэффициентами типа такой: Y' = 0.299 R + 0.587 G + 0.114 B?
Там, это, один минус от меня, извиняюсь, экспериментировал, оказывается поднимать карму без публикаций нельзя, а опускать можно, как-то странно оО «Нельзя голосовать за пользователей, у которых нет размещённых публикаций» (а против-то можно) подписался, при случае исправлюсь =)
Другое*
*YouTrack