Комментарии / Профиль pharlan / Хабр

Игорь Взюков @pharlan

Senior Systems Engineer (BigData Devops)

Профиль Публикации 2Комментарии 12Закладки 23

Glusterfs + erasure coding: когда надо много, дешево и надежно

pharlan 18 июл 2018 в 18:15

Это не родная тулза. До 4ки тоже руки не дошли пока

Посмотреть

Glusterfs + erasure coding: когда надо много, дешево и надежно

pharlan 18 июл 2018 в 18:10

У Гластера с EC есть такая фича — медленно писать в один поток, даже шейпить не надо)

Посмотреть

Glusterfs + erasure coding: когда надо много, дешево и надежно

pharlan 18 июл 2018 в 16:41

Ceph мы тоже любим. Он у нас в проде для S3 хранилища. И, кстати, он отлично справляется с миллионами как мелких, так и больших файлов. По Гластеру мы скорее набираем экспертизу, используем его под бэкапы и остальные не самые критичные вещи, поэтому с мелкими файлами не тестировал. В прошлом посте было об этом: habr.com/company/croccloudteam/blog/353666

Посмотреть

Glusterfs + erasure coding: когда надо много, дешево и надежно

pharlan 18 июл 2018 в 13:41

Можно ссылочку про 64мб? И как скорость heal зависит от размера шарда? Есть какие-то наблюдения? Касательно надувания, у меня было около 15 тонких дисков с виртуальным размером 1тб, а реальным около 10гб. И после замены брика вижу:

шарды нормального брика:

420K    /export/brick2/freezer/.shard/27eaeaa3-f4e8-4ff6-9417-17b88c3148e6.1003
332K    /export/brick2/freezer/.shard/27eaeaa3-f4e8-4ff6-9417-17b88c3148e6.1010
460K    /export/brick2/freezer/.shard/27eaeaa3-f4e8-4ff6-9417-17b88c3148e6.1020

шарды курильщика:

127M    /export/brick2/freezer/.shard/27eaeaa3-f4e8-4ff6-9417-17b88c3148e6.1003
127M    /export/brick2/freezer/.shard/27eaeaa3-f4e8-4ff6-9417-17b88c3148e6.1010
124M    /export/brick2/freezer/.shard/27eaeaa3-f4e8-4ff6-9417-17b88c3148e6.1020

Посмотреть

Как мы ломали Glusterfs

pharlan 3 июл 2018 в 16:27

Спасибо за вопросы:
1) XFS была выбрана, так как мы практически везде используем Centos 7, а она уже давно стала их дефолтной файловой системой. Так же RedHat во всех мануалах рекомендует именно ее. XFS мы, так же, давно используем в Ceph, и массовых проблем с развалом файлухи не наблюдаем. Да, бывало, что она сыпалась, причем даже не только в случае холодной перезагрузки, но в основном она нас полностью устраивает.

2) Я наблюдаю сейчас тенденции именно к использованию JBOD, а всю логику по репликации на себя берут уже SDS решения. Если у вас есть острая необходимость в повышении уровня надежности сохранности данных, вы можете собрать под Гластером зеркала, или RAID5, но это значительно увеличит стоимость вашего хранилища. Касательно производительномсти, тут ответ разный в зависимости от типа вольюма(тома). Для striped лучше куча дисков, так как данные ровными слоями пишутся на все брики одновременно. Для разных distributed с включенным шардингом производительность одного потока записи не изменится, но при нескольких потоках, общая производительность кластера будет выше. В остальных типах производительность не изменится.

3) Если речь идет о UUID, то пробовали, но уже после публикации статьи.

4) Вся документация, что мы читали, была на английском языке и так вышло, что к нам в обиход пришли слова в raw формате =) брик(brick), вольюм(volume) и тд.

Посмотреть

Как мы ломали Glusterfs

pharlan 3 июл 2018 в 16:12

Кстати, disperced volume с sharding тоже хорошо себя показал в наших лабах.

Посмотреть

Как мы ломали Glusterfs

pharlan 24 апр 2018 в 10:43

Ловко, спасибо, приму на вооружение =)

Посмотреть

Как мы ломали Glusterfs

pharlan 24 апр 2018 в 10:41

Пока еще нет

Посмотреть

Как мы ломали Glusterfs

pharlan 24 апр 2018 в 10:41

Согласен, еще мы рассматривали вариант монтировать по симлинку by-path

udevadm info -q symlink /dev/sdb
disk/by-id/scsi-36d4ae52074d938002256460a3c3bc21d disk/by-id/wwn-0x6d4ae52074d938002256460a3c3bc21d disk/by-path/pci-0000:02:00.0-scsi-0:2:1:0 disk/by-uuid/c6ff2798-7302-4d52-a499-5a0109ceeb70

Посмотреть

Как мы ломали Glusterfs

pharlan 23 апр 2018 в 16:09

На момент тестирования LTSкой была 3.10, на ней мы проводили большую часть тестирования, также мы пробовали стабильную версию от Red Hat (rhgs-3.3), но по сути разницы не было, основные проблемы со striped вольюмами оставались.

Посмотреть

Как мы ломали Glusterfs

pharlan 23 апр 2018 в 15:33

Erasure coding применяется в dispersed volume, у Redhat есть хорошая документация с примерами access.redhat.com/documentation/en-us/red_hat_gluster_storage/3.2/html/administration_guide/sect-recommended-configuration_dispersed

Посмотреть

Как мы ломали Glusterfs

pharlan 23 апр 2018 в 11:38

Да, пробовали, работает стабильно, но с ним слишком много ограничений. Например, максимальный размер файла = размер брика — уже занятое на нем пространство. В этом случае, конечно, должен помочь Sharding xlator, но мы пока мы его только тестируем и рано делать выводы

Посмотреть