zayko 20 янв 2011 в 18:06

Размышления о реализации социального графа

8 мин

1.5K

Ruby on Rails*

+40

Комментарии 34

wilwill 21 янв 2011 в 00:54

как минимум — полезно

asux 21 янв 2011 в 00:58

Спасибо за пост, идея расширить виды связей очень полезна может быть для соцсетей. А не считаете ли вы избыточным хранение в базе записи инвертированного близнеца?

zayko 21 янв 2011 в 03:56

Приблизительно этого вопроса я очень ждал.

Создание записи близнеца в БД с обратным расположением id пользователей позволяет выполнить выборку социальных связей пользователя за один запрос. Однако, это требует контроля состояний обеих записей. pending, accepted, rejected — должны меняться синхронно, что требует дополнительных манипуляций.

Я выбрал другой подход — запись одна. Контроля состояний не требуется. Однако, как видите, требуется два запроса на выборку всех связей.

Что выбрать?

Если честно — то в этом то и суть поста.
Я не знаю что выгоднее в production решениях, школьный рельсовый сайт с посещением 3000 пользователей в месяц не позволит дать мне никаких рекомендаций. Я надеялся, что кто-нибудь поделится опытом. Ради этого то все и затевалось.

tundrax 21 янв 2011 в 04:37

Интересный пост.
Сразу вопрос: учитывая что запись в БД и само отношение между пользователями является уникальным в комбинации «отправитель: получатель: контекст», отправитель может иметь несколько записей с одним и тем же получателем, но в разных контекстах. Как вы планируете визуализацию этих связей?

>Я надеялся, что кто-нибудь поделится опытом.
Для школьного сайта с небольшим посещением такие решения может быть и подходят, не вижу смысла волноваться. Но, в production большого сервиса правильнее будет денормализовать БД. Пусть будет запись близнец, но не 2 запроса в ДБ.

zayko 21 янв 2011 в 04:46

user = User.first
another_user = User.last

user.graph_to(another_user, :context=>:job, :me_as=>:boss, :him_as=>:staff_member)

user.graph_to(another_user, :context=>:job, :me_as=>:boss, :him_as=>:staff_member)
user.graph_to(another_user, :context=>:job, :me_as=>:boss, :him_as=>:staff_member)
user.graph_to(another_user, :context=>:job, :me_as=>:boss, :him_as=>:staff_member)

zayko 21 янв 2011 в 04:47

Извините — сорвалось.

zayko 21 янв 2011 в 04:49

user = User.first
another_user = User.last

user.graph_to(another_user, :context=>:job, :me_as=>:boss, :him_as=>:staff_member)
user.graph_to(another_user, :context=>:live, :me_as=>:friend, :him_as=>:friend)
user.graph_to(another_user, :context=>:sport, :me_as=>:student, :him_as=>:trainer)
user.graph_to(another_user, :context=>:cafe, :me_as=>:barmen, :him_as=>:client)

как душе угодно.

tundrax 21 янв 2011 в 04:55

Под «визуализацией» я имел ввиду, как всё это будет выглядеть для обычного пользователя вашего сервиса?
Как ему определить контекст связи? Выбрать из вашего огромного списка, возможен мултиселект?

zayko 21 янв 2011 в 05:02

Возможно это страница с заголовками: Мои Друзья, Мои учителя, Мои знакомые, Мои родители, Мои соседи, а под ними ссылки на пользователей или юзерпики.

Кнопку — это мой друг, это мой босс, это мой одноклассник, это моя школа — можно выводить в зависимости от контекста (статуса пользователя). По тысячи других условий.

Я не хочу рассуждать об этом — это больше дело дизайнера, наверное. Я не проектировщих интерфейсов.

tundrax 21 янв 2011 в 04:59

Ваше решение больно смахивает на «Списки» (Lists) в друзьях Facebook. Недостаток Ваш, контекст определяется программистом и он статичен для всех пользователей.

Invincible_One 21 янв 2011 в 14:23

«Зайка моя я твой зайчик
Ручка моя я твой пальчик
Рыбка моя я твой глазик
Банька моя я твой тазик»

:)

philpirj 21 янв 2011 в 01:46

Как минимум — RDBMS для этого подходит слабо.
Посмотрите на графовые базы данных, я на все сто уверен, что к наиболее популярным есть привязка из Ruby.
wiki.neo4j.org/content/Ruby

zayko 21 янв 2011 в 04:03

Спасибо! Что-то новое для меня. С удовольствием посмотрю на досуге.

Talismanium 21 янв 2011 в 01:52

Вконтакте есть «категории», одного человека можно распихнуть сразу в несколько
доступ к альбомам можно ограничивать категориями

не кажется ли надстройка категорий поверх друзей более функциональной?

+в инстант_мессанджере у них еще отдельные категории, никак не связанные с вконтактными

zayko 21 янв 2011 в 04:33

Я, например, хотел бы устанавливать связь пользователя со школьным сайтом.
Представьте, кнопка — Я здесь учился!
Выше я приводил пример: u.graph_to(User.find(20), :context=>:school, :me_as=>:student, :him_as=>:school)
где u — текущий пользователь, а User.find(20) — учетная запись администратора школьного сайта.

В социальной сети, по моему мнению под пользователем вполне можно понимать и организацию.
А к какой категории друзей тогда отнести свою школу/компанию?

В посте я попробовал создавать неравнозначные связи в различных контекстах. Как это получилось — это уже другое дело.

sl4mmer 21 янв 2011 в 02:32

Сомневаюсь, что предложенный вами вариант лучше хранения в базе инвертированной записи.

НЛО прилетело и опубликовало эту надпись здесь

ognevsky 21 янв 2011 в 16:16

Делается не так, что вот так:

WHERE user_id=1 AND friend_id=5 OR user_id=5 AND friend_id=1

То есть когда вы ищите всех своих друзей, вам нужно пройти по всей таблице дружб и найти все записи, которые accepted и в которых вы находитесь либо в user_id, либо в friend_id. Если есть инвертированная запись, то нужно выбирать только те записи, где я (user_id) равен какому-то значению.

zayko 21 янв 2011 в 03:58

Вот и я сомневаюсь :)

sl4mmer 21 янв 2011 в 05:49

Синхронизация состояния записей несложна, сами понимаете. Зато выгода стандартного подхода очевидна:
Минус -количество запросов INSERT, UPDATE, DELETE увеличивается
Плюс - уменьшается количество запросов SELECT.

А селекта ведь в разы больше

zayko 21 янв 2011 в 11:32

Согласен. Спасибо.

IgorStepin 21 янв 2011 в 10:12

Спасибо за пост, интересно почитать.

Немного по руби коду:
1) в times не нужно вручную менять i, а когда i не нужно, можно ее не писать:

10.times { |i| puts i }; 5.times { puts :hello; }

2) при объявлении method_missing лучше так же объявлять respond_to? с той же регуляркой (чтобы проверки на наличие метода срабатывали, если кто-то захочет проверить, подробнее www.dcmanges.com/blog/30; понятно, что код в статье на поиграться, но все же):

def respond_to?(method_name)
/^(.*)_(.*)_from_(.*)$/.match(method_name.to_s) || super
end

netAn 21 янв 2011 в 11:28

а ничего так смайлик получился

zayko 21 янв 2011 в 11:29

Спасибо. Очень ценное замечание. Учту.

-1

Sheh 21 янв 2011 в 11:13

но вернувшись из школы (я работаю учителем)

Даёшь больше таких учителей в школы!

eland 21 янв 2011 в 11:24

Если method_missing(method_name, *args) не находит какой-то метод, то он попытается его распарсить по регулярке.

Если подобный подход применять регулярно и в большом проекте, то глюкабитили проекта будет на высоте. Особенно обрадуются вновь пришедшие в проект разработчики.

zayko 21 янв 2011 в 11:32

Увы я не могу определить границы применимости данного метода. Если сможете что-то пояснить на этот счет — то это будет очень хорошо. Но в данном случае альтернатив не вижу.

eland 21 янв 2011 в 12:33

Основные проблемы будут с трудно уловимыми опечатками.
Добавьте сюда написание одних и тех же слов на разных языках, транслитерациях.
Для перцу можно добавить опечатки в разных раскладках, например, job и jоb — для ЭВМ это два разных слова.
Если в команде есть один программист с Пунто-свитчером, то это уже потенциальная бомба замедленного действия.
А на живом запуске проекта ошибки будут накапливаться долго и постепенно, что потом откат бэкапа базы данных не спасет (бэкап тоже будет с глючными записями).

В общем, метод удобный, но работать надо с ним аккуратно.

Xarakternik 21 янв 2011 в 12:43

Мне бы, блин, такого учителя в школе в свое время…

qmax 21 янв 2011 в 14:09

вам нужно в калифорнию!

zayko 21 янв 2011 в 14:25

у меня тут после 6 уроков и так калифорния.

kliss 21 янв 2011 в 15:52

Помимо удвоенного количества селектов, такой метод привносит один очень важный нюанс: эту базу очень сложно разбить на несколько. Например, если одного сервера БД уже не будет хватать.

Существуют, конечно, нереляционные решения, которые позволяют это сделать (MongoDB, например). Но во-первых это прощай джойны, а во-вторых, всё равно один из двух селектов будет глобальным (отправляться на все шарды).

Вывод: инвертированные записи и копирование изменений — необходимая оптимизация в реальном мире.

ognevsky 21 янв 2011 в 16:27

Посмотрите на Диаспору, там реализована подобная «дружба». Добавляется контекст, а потом в него добавляются контакты.

ifesdjeen 22 янв 2011 в 17:09

вы описали приблизительно то же самое, что делает FlockDB.
вообще мы решали проблему несколькими путями. во-первых, если граф направленый (twitter model), то все немного по-другому. говорим что A => B, а взаимная связь будет уже B => A. Соответственно, чтобы понять, кто с кем «дружит» — нужно сделать запрос с join на себя.

на самом деле, очень удобно для таких вещей использовать Graph DB, такие как, например, neo4j. Там на каждую связь (т.к. база по сути schema-less), можно вешать различиные аттрибуты, и по ним производить поиск и фильтрацию. делать одно и двунаправленные графы. делать traversals, каскадом, рекурсивно — как пожелаете.

посмотрите на github.com/maxdemarzi/neography гем для упрощения работы с neo4j. мы решили его написать в силу того, что через Rest c neo4j общаться не очень удобно, а ближайший аналог — требует jruby.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Размышления о реализации социального графа

Комментарии 34

Публикации

Истории