Краулеры и обработка — Perl. База — MySQL. Запускалось все на стареньком домашнем компьютере PIV 3Ghz, 3GB RAM.
Пересечения для ТОП-10 (матрица) на готовой базе считаются где-то около минуты. Основное время на извлечение списков из базы. Но так как индексы висят в памяти (где-то 750 метров) это время тоже незначительно.
А зачем? Вы думаете найдется много гиков кому интересна такая статистика? :) Максимум что можно сделать (и я это, может быть сделаю) — рекомендательный сервис «кого еще зафрендить».
Ну я не профессионал маркетинга, уверен быть не могу, но думаю интерес возможен.
Если сделать для простых пользователей чтобы они могли смотреть инфу по себе и своим друзьям и могли публиковать в ЖЖ, то так можно бесплатно пиариться.
А маркетологи возможно захотят делать какие-то срезы по ключевым словам например. Скажем я хочу узнать кто топовый блоггеры по тебе BMW и какая у них аудитория — за это и деньги могут заплатить.
Думайте о том какие проблемы вы можете решить. Мне кажется тут есть куда копать.
Я видел эти исследования и не ставил себе задачи повторить их. Но можно попробовать проанализировать граф в этом ключе. Боюсь только что размерность задачи сильно вырастает.
Такие сервисы есть, но делать обработку в режиме онлайн — очень ресурсоемко. Поддерживать актуальную базу блогов — тоже та еще задачка (кстати, даже Яндекс.Блоги не очень хорошо с ней справляются на мой взгляд).
0. кластер Алексея Навального: 33 тыс.
1. кластер политически активных: 16,5 тыс.
2. аполитичный кластер: почти 19 тыс.
4. творческая интеллигенция: 54,5 тыс.
6. без ярко выраженных пристрастий: 8 тыс.
Хотелось бы узнать вашу качественную характеристику и количественную оценку кластеров 3 и 5 ))
И прав ли я, интерпретируя разбиение, что кластер 0 как бы входит в кластер 1, то есть число политически активных примерно 40 тыс.?
Ну и чтобы вычислить процент от общей аудитории надо делить на 168 тыс. или сколько?
Кластеры 0 и 1 можно объединить «по смыслу», но они в принципе независимые.
Кластер 3 (аудитория zyalt, drugoi и немного tema, sergeydolya) — 15,5 тыс.
Кластер 5 (sergeydolya, drugoi, tema, tebe_interesno и др.) — почти 22 тыс.
Качественно оценить их затрудняюсь :)
Но еще раз напоминаю — тут сильно все зависит от разбивки на кластеры. Сделать их число не 7 а 9 — и уже картинка будет другой.
Наверно, СУПу стоит задуматься и взять под свой контроль продажу рекламы в блогах. Тогда проблему обработки статистики возьмут на себя их спецы и их сервера.
Да у них методы какие-то… как у одной знаменитой партии. Вроде, «мы стараемся», а результат не доставляет…
А статистика-то нужная, её бы в онлайн рассчитывать — так ведь железо нужно.
Кто кого читает в ЖЖ — анализ пересечения аудиторий топовых блоггеров