Кластеры 0 и 1 можно объединить «по смыслу», но они в принципе независимые.
Кластер 3 (аудитория zyalt, drugoi и немного tema, sergeydolya) — 15,5 тыс.
Кластер 5 (sergeydolya, drugoi, tema, tebe_interesno и др.) — почти 22 тыс.
Качественно оценить их затрудняюсь :)
Но еще раз напоминаю — тут сильно все зависит от разбивки на кластеры. Сделать их число не 7 а 9 — и уже картинка будет другой.
А зачем? Вы думаете найдется много гиков кому интересна такая статистика? :) Максимум что можно сделать (и я это, может быть сделаю) — рекомендательный сервис «кого еще зафрендить».
Такие сервисы есть, но делать обработку в режиме онлайн — очень ресурсоемко. Поддерживать актуальную базу блогов — тоже та еще задачка (кстати, даже Яндекс.Блоги не очень хорошо с ней справляются на мой взгляд).
Я видел эти исследования и не ставил себе задачи повторить их. Но можно попробовать проанализировать граф в этом ключе. Боюсь только что размерность задачи сильно вырастает.
Краулеры и обработка — Perl. База — MySQL. Запускалось все на стареньком домашнем компьютере PIV 3Ghz, 3GB RAM.
Пересечения для ТОП-10 (матрица) на готовой базе считаются где-то около минуты. Основное время на извлечение списков из базы. Но так как индексы висят в памяти (где-то 750 метров) это время тоже незначительно.
Я тоже сначала испугался что подразумеваются только три банка-акционера системы, но на сайте есть краткая информация что можно другим банкам войти в тему. По крайней мере теоретически :)
Кластер 3 (аудитория zyalt, drugoi и немного tema, sergeydolya) — 15,5 тыс.
Кластер 5 (sergeydolya, drugoi, tema, tebe_interesno и др.) — почти 22 тыс.
Качественно оценить их затрудняюсь :)
Но еще раз напоминаю — тут сильно все зависит от разбивки на кластеры. Сделать их число не 7 а 9 — и уже картинка будет другой.
Пересечения для ТОП-10 (матрица) на готовой базе считаются где-то около минуты. Основное время на извлечение списков из базы. Но так как индексы висят в памяти (где-то 750 метров) это время тоже незначительно.
Известных ВАМ языков.
Считаете что от этого подборочка становится менее оригинальной? :)
PS Лично я знаю о существовании пяти (5) языков из этого списка.
PS Текст на выносках нечитаем, кернинг бы увеличить.