Комментарии / Профиль ilaskov / Хабр

ilaskovy @ilaskov

Пользователь

Профиль Публикации 2Комментарии 36Закладки 10

Распределенная файловая система Ceph FS за 15 минут

ilaskov 17 мая 2013 в 11:35

Как вариант к обсуждению по сравнению только с CephFS. Согласен с вами.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 17 мая 2013 в 11:16

Уверен Вы про CephFS.
Для виртуализации замечательно подходит RBD, который можно использовать в продакшн.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 17 мая 2013 в 11:09

Основные преимущества software defined storage, что пришли сразу в голову, я перечислил чуть выше.

По поводу экономики — при сравнение надо учитывать намного больше переменных чем только «электричество и зарплату админов», потому что архитектура объектного хранилища совершенно иная от стандартного подхода на голове + JBOD.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 17 мая 2013 в 10:54

Смотрите, Ceph это полностью распределенное объектное хранилище. Наличие абстрактного уровня Группы Размещения (Placement Group) позволяет очень гибко обслуживать репликацию блоков. У хранилища нет SPF. Отказ диска, ноды или шкафа с нодами не приводит к даунтайму, при правильном проектировании даже просадки производительности не будет при восстановлении. Архитектура может содержать несколько десятков серверов. Масштабирование горизонтальное и полностью прозрачное.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 17 мая 2013 в 10:41

Да, при kill -9 mds ввод-вывод зависает на несколько секунд, я об этом написал чуть выше уже.
Kernal panic не наблюдал.
Я уверен — через несколько релизов допилят и Fault tolerance для mds.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 17 мая 2013 в 00:01

В препродакшн по-прежнему рекомендуют ставить не более одного mds.
Я пробовал то, о чем вы написали на версии 0.56.4 — задержка при создании/удалении файлов была, но измерялась секундами.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 16 мая 2013 в 23:52

Простите, не осилил до конца вопрос.
Ceph работает с выделенными дисковыми ресурсами посредством файловой системы, в этом примере — xfs. То есть, на презентованом диске должна быть файловая система, а ниже может быть HBA с multipath на LUN дисковой полки.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 16 мая 2013 в 21:58

Я видел Ваши вопросы в рассылке ceph-users, Георгий.
Можно мне взглянуть на вашу песочницу, если она еще не снесена?

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 16 мая 2013 в 18:41

А клиенту всё равно к какой ноде цепляться? И, возмжно стоит через днс раздавать ip сереов, тогда при вылете первой он не потеряет хранилище.

Клиент «разговаривает» с тремя доступными демонами мониторинга mon.a, mon.b, mon.c.

Но основной вопрос в другом, что у этой штуки с произвоительностью?
Как она себя будет вести, если скажем планово выключить хранилище.
Т.е. порядок выключения 1,2,3 (на третью что-то успели записать, после выключения 1). потом включаем 1,2 (пытаемся прочитать то, что записали на 3), потом уже включается 3.

Все файлы размещаемые на Ceph FS разбиваются на блоки данных которые дублируются на разных физических дисках так, что бы оба дубликата одного и того же блока не попадали на диски одной ноды. В результате каждый блок данных будет случайно записан в двух экземплярах учитывая размещение физических дисков друг к другу. Хранилище не подтверждает команду записи блока данных до момента подтверждения записи от всех элементов участвующих в репликации этого блока.

Плановое выключение, как и аварийное при продуманном дизайне дисковой подсистемы, не приведет к потери каких либо данных.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 16 мая 2013 в 17:26

Дополню.
Вот посмотрите на верхнюю строчку тут

Тут взяли всего один контроллер, пробросили 6 SATA дисков и получили около 800MB/s. Это при блоке в 4MB и btrfs.

Давайте представим себе наиболее худшую ожидаемую аварию — пропадает такое количество дисков при такой утилизации хранилища, при которых является необходимым отреплицировать все существующие блоки всех серверов.
К примеру, при 12 3TB дисках на каждой ноде и уровне избыточности 2, это может означать необходимость отреплицировать 18 TB данных.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 16 мая 2013 в 16:41

Моя вина, недосмотрел. Поправил, спасибо!

— не рекомендуется маунтить туда, где крутится сам osd
— mds в данном конкретном случае очень важная штука, ей надо подкрутить ресурсов, она при большом количестве файлов жрет их очень много.
— журнал лучше убрать подальше от всего хозяйства, он прямо и четко влияет на производительность.
— btrfs лучше, чем xfs, ext4 тоже можно, но она самая медленная )
— много чего еще из нюансов.

И не только. Хочу написать об этом подробно позднее.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 16 мая 2013 в 14:18

Расскажи плз поподробнее, интересна архитектура которую вы собирали.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 16 мая 2013 в 12:01

Репликация обязательно синхронная. Неделю назад был Dev Summit. На нем был презентован блупринт для асинхронки wiki.ceph.com/01Planning/02Blueprints/Dumpling/RGW_Geo-Replication_and_Disaster_Recovery

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 16 мая 2013 в 11:54

Да, в соответствии с «весом» каждого диска, ноды, шкафа. Да, забавные баги наковырял когда-то, уже пофиксить должны были.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 16 мая 2013 в 11:49

Смотрите, обычно в один сервер ставят больше одно винта.

Посмотреть

Распределенная файловая система Ceph FS за 15 минут

ilaskov 16 мая 2013 в 10:50

Уже в процессе. Скоро будет.

Посмотреть