Я бы добавил еще учебник по матстатистике к списку и пару книжек по обработке многомерных данных.
Вместо того чтобы дрючить руками гигабайты данных можно было попробовать прогнать иерархическую кластеризацию или SVM и посмотреть что получится, для начала.
Скорее всего это кластеры пользователей, которые начали пользоваться вконтактиком, а потом перестали, не успев развить свою сеть и выйти на другие кластеры. Ну или боты.
Я считаю что такой подход можно использовать как дополнение к нормальному проектированию БД. Структура связей и базовые поля все равно должны быть в виде ER-моделей, а вот всякие дополнительные атрибуты типа «имя любимой собачки» — можно выносить в сериализованные BLOB'ы
Посмотрел версию у себя на домашнерабочей машине — 2.11.9. Пошел обновляться :)
Вместо того чтобы дрючить руками гигабайты данных можно было попробовать прогнать иерархическую кластеризацию или SVM и посмотреть что получится, для начала.
Ну а вообще круто, мне нравятся такие задачки :)
А то я уж было, грешным делом, подумал что победит тот кто сумеет лучше прикрутить SVM :)