Pull to refresh

Comments 5

Очень интересно, а для какой задачи, если не секрет? Какие знания хочется намайнить из социальных графов?
Кластеризация прежде всего — хочется опробовать разные методы.
Спасибо за статью, как-то даже и не думал про сжатие. Тоже столкнулись с проблемой того что графы не влазят в оперативную память, но мы решили пойти в сторону Hadoop и распараллеливания вычислений на кластере. Чем я сейчас и занимаюсь.

У нас в институте кстате поддерживается база около 160 датасетов различных сетей, если кому интересно ссылка и описание и matlab toolbox (готовый код чтобы считать разные показатели сетей на матлабе/октаве).

Пару вопросов:
1) Не могли бы Вы пояснить что имелось в виду на рисунке 3? Конкретнее: что обозначает цветовая шкала и как вы перешли к логарифмическому масштабу? Или хотя бы ключевое слово.
2) Как получили граф вконтакте? Где скачать? :)

1) Пусть есть большая матрица смежности NxN — там все данные 1 или 0 — есть ребро между нодами или нет. На этих красно-желтых рисунках эта матрица разбивается на блоки N/100 x N/100 и там считается количество единиц в конкретной области. Если более коротко, то там изображен логарифм плотности соедионений в конкретной области матрицы смежности.

2 ) По второму — в открытом доступе насколкько я знаю ее нет ( но не проверял ) у меня база годовой давности спаршеная что называется руками.

Вот я тоже хотел бы еще попаралелить вычисления, но тут как-раз такой размер в наивном виде 150ГБ. А вот как паралелить вычисление собственных значений, например, я не знаю (хотя я смотрю вы как-то их считаете ), более того kmeans распаралеленая для меня не самая простая задача. Вот интересно что все degree распределения имеют в середине характерный излом — у вас на википедии смотрю тоже.
Sign up to leave a comment.

Articles