anafor Nov 7 2011 at 22:18

Cкоростная синхронизация миллиарда файлов

7 min

99K

Server Administration*

From sandbox

+55

Comments 29

1nd1go Nov 7 2011 at 22:59

файлов несколько миллиардов

да и масштабы не как у Фесбука или Яху

Хе-хе… скромничаете.

Вообще, здравое решение и грамотный подход к вопросу! Жду про XFS в этом же духе ;)

anafor Nov 7 2011 at 23:06

Файлы просто очень мелкие, а нод то мало.
Спасибо!

Psih Nov 7 2011 at 23:13

GlusterFS не очень быстро работает с мелкими файлами, зато там где размеры идут хотя бы на мегабайты, а лучше десятки мегабайт, она очень хорошо масштабируется за счёт страйпа и репликации. Там нужно подобрать набор трансляторов, который подходит конкретно вам с соответствующими настройками.

alrond Nov 8 2011 at 15:33

Только вот очень надо осторожно, а то при ребалансе можно запросто потерять 5ТБ данных и все файлы на одной ноде просто станут обнуленными. Или fuse-клиент намертво подвесится, а вместе с ним и программы что используют фс.

mark_ablov Nov 8 2011 at 06:48

Всегда думал что XFS хорошо работает с небольшим количеством крупных файлов, в остальном проигрывает другим ФС, разве не?

bezumkin Nov 8 2011 at 13:07

Тоже так думал.
Везде в статьях про торренты под Linux советуют именно XFS.

«Вопрос наиболее быстрой для такого Use Case файловой системы планирую описать позже. Оговорюсь только, что по нескольким причинам была выбрана XFS.»

Надеюсь, автор не забьет, и раскроет нам эту тему.

UFO landed and left these words here

hg_04 Nov 8 2011 at 07:56

а если нужно получить все файлы с нодов на главный сервер, это нужно на каждом ноде lsyncd подымать или есть более элегантное решение?

hg_04 Nov 8 2011 at 08:23

мне просто не нравится, что ноды имеют ключи, хоть и от одной папки, на сервере, возможно существует механизм сообщений о изменении файлов на ноде, а сервер уже засинкает?

Alukardd Nov 8 2011 at 11:07

Вообще мне кажется, что тут все ноды равноценные backend'ы к чему-то. Поэтому понятия сервер и клиент здесь условное и применяется в рамках lsyncd для обозначения стороны.

nc00x Nov 8 2011 at 09:11

Мне пришлось решать аналогичную задачу, но с csync2 «на бэкэнде», на том же ec2-ebs с xfs (что очевидно для ebs). Примерно как описано тут, только еще пришлось дописывать конфиги на lua для новой версии lsyncd.

Автор той статьи написал, что его устроил только уровень производительности csync2, чему я поверил (времени не было на тесты). В результате при запуске csync2 кушает cpu на 100% на какое-то время, что меня несказанно печалит. Быть может это из-за моих кривых рук.

Кстати, если файлов очень много, то нужно повышать лимит количества файлов, за которым может следить inotify. И на сколько я успел разобраться в вопросе, inotify ничего не делает бесплатно — на каждый файл расходуются ресурсы (пусть и не очень много).

alekciy Nov 8 2011 at 11:25

>то нужно повышать лимит количества файлов
В смысле rlimit на open files?

>inotify ничего не делает бесплатно — на каждый файл расходуются ресурсы
На любую сущность в системе всегда расходуются какие то ресурсы. Но в данном случае мне хотелось бы уточнить, какого рода ресурсы и почему на каждый файл? Потому как inotify это подсистема ядра которая просто уведомляет приложение о происходящих изменения. Хранения очереди изменений для передачи в приложение в ней нет.

Murz Aug 21 2015 at 08:46

Ну inotify же не забесплатно будет уведомлять, для того чтобы уведомить об изменениях — нужно какому-то процессу (пусть даже в ядре) при каждой файловой операции записи производить сравнение со списком «я же слежу за этими файлами и папками», собственно если этот список будет содержать 10 тыщ записей, то это наверное печально скажется на каждой файловой операции. Ну и если вдруг резко поменялось 5 тыщ файлов, то накопить 5 тыщ событий в лог, и потом разослать эти события всем слушальщикам.

Собственно поэтому я и боюсь на серверах всяких там программ, которые следят за изменениями в папках через inotify или ещё как, т.к. многие не думают о том что каждая прослушка добавляет тормозов и вешают inotify на все подряд на всякий случай, чтобы было. А потом получаем «что-то диск стал медленно работать, странно, наверное посыпался».

alekciy Aug 22 2015 at 13:40

Ну есть более продуманная подсистема в виде fanotify. Хотя и там есть свои проблемы. А тормозов добавляет просто неграмотное их использование, и тут в принципе уже не важно, что и как использовать.
К слову сказать современные антивирусники активно используют подобные подсистемы. Все на выходе зачастую это выходит дешевле, чем шуршать диском в поиске «а не изменилось ли чего у нас в этом куске фс».

icCE Nov 8 2011 at 11:14

>К сожалению на клиенте этот кластер монтируется через FUSE, и скорость записи оказалась ниже 3 МБ/сек.

Ну а кто запрещает клиентом? Fuse же известный тормоз.

alekciy Nov 8 2011 at 11:30

Вопрос автору. Знает ли он, что в случае с inotify и падением демона ядро после запуска демона не передаст ему произошедшие изменения за период простоя демона (к примеру, на период рестарта)? Т.е. ситуация, что файл изменится, но не будет синхронизирован на кластер очень вероятна.

bondario Nov 8 2011 at 15:07

В случае с lsyncd — при старте демона проводится проверка консистентности между нодами.

sn00p Nov 8 2011 at 15:59

Что происходит при такой проверке и как долго это происходит? Кластер ждет и неработоспособен? А если проверка затянется часов на шесть?

alekciy Nov 8 2011 at 17:06

Чудес не бывает. Какая тут может быть проверка кроме полного сканирования подконтрольного куска ФС?

В новых версиях ядра inotify сменён более прогрессивной подсистемой в которой в том числе в ядре копиться очередь до момента когда демон сможет принять данные. Собственно в том числе и делалось на случай временного падения/рестарта демона слежения. К большому сожалению прикладной софт пока не использует эту возможность и lsyncd не исключение.

anafor Nov 9 2011 at 11:59

Читал об этом, но не придал значения. В даном конкретном случае это не критично — одна из других нод рано или поздно сгенерирует свой такой файл и разнесет по всему кластеру.

alekciy Nov 9 2011 at 20:15

Если файл больше не измениться, и нет других механизмов контроля консистентности кластера (хотя бы тупой пробежкой по файлам), то ни как файл по кластеру с ноды не разойдется. Хотя если проект допускает возможность такой неконсистентности, то почему нет. Я просто хотел обратить на этот аспект внимание в том числе и тех, кто будет читать, возможно в их задачах это будет не приемлемо.

amarao Nov 8 2011 at 17:36

Про DRBD немножко не правда. Да, оно не скейлится (штатная конфигурация 2 узла, дальше шаманить), но зато очень быстрая синхронизация, которая срала на файловые системы и количество файлов.

foxmuldercp Jun 21 2016 at 12:59

а что навесить сверху drbd на нодах в режиме мастер-мастер чтобы мои каталоги /var/www/html/mycoolpowerdpress были консистентны?

pupsor Nov 9 2011 at 01:15

спасибо, выглядит неплохо, посмотрим на практике.

ps: для default.rsyncssh немного другой конфиг получается:

sync {
default.rsyncssh,
source="/raid",
host=«node01»,
targetdir="/raid",
delay=10
}

Timosha Feb 24 2012 at 12:23

я правильно понимаю что в данной конфигурации синхронизация одного файла с одной ноды на 2 другие порождает синхронизацию этого же файла с тех двух других нод на третью. и при фактическом добавлении всего одного файла мы имеем 6 запусков rsync?

anafor Mar 15 2012 at 18:41

Во-первых, синхронизируются толко изменения. А во-вторых, можно не замыкать цепочку.

alekciy Feb 25 2013 at 11:10

Судя по code.google.com/p/lsyncd/source/browse/trunk/fanotify-syscall.h?r=435 поддержка fanotify (упомянутая мною в комментарии новая подсистема) в lsyncd есть (с версии 2.1). Было бы любопытно узнать, использует ли автор топика по прежнему lsyncd и какой версии?

alekciy May 27 2014 at 14:54

Сам спросил, сам отвечу. Подсистема fanotify признана непригодной для использования из-за отсутствия поддержки события «перемещение».

Fanotify is btw. currently not usable for Lsyncd, as it misses move events.

github.com/axkibe/lsyncd/issues/39#issuecomment-2760451

erthad Feb 12 2016 at 09:40

ocfs2 поверх drbd мы ставили на амазоне года 4 назад.
Подробностей, впрочем, уже не помню, и в продакшне я его не застал.