teraflops Apr 17 2014 at 11:35

Ceph: Cloud Storage без компромиссов

10 min

87K

Перформикс corporate blog

+45

Comments 51

divanikus Apr 17 2014 at 12:14

Вы используете Ceph на выделенном кластере (чисто под хранилище) или совместно с другим софтом (прямо на ноде)?

teraflops Apr 17 2014 at 12:19

Как мы отметили, роли compute и storage совмещены.

UUSER Apr 17 2014 at 12:26

Какая сеть используется между OSD?

teraflops Apr 17 2014 at 12:29

IPoIB QDR

UUSER Apr 17 2014 at 12:43

Дорого.

teraflops Apr 17 2014 at 12:44

DDR/10GigE стоят в пределах десятипроцентной разницы столько же. В пределах стойки разница вообще не заметна.

Darka Apr 17 2014 at 12:34

Почему выбор пал именно на Ceph, а не на вполне себе стабильный Gluster?

teraflops Apr 17 2014 at 12:35

Gluster является стабильным, в каком-то понимании, но не производительным. К тому же, во время выбора решения гластер не обладал ни драйвером в qemu, ни кворумом.

Darka Apr 17 2014 at 12:39

Зачем для гластера кворум? И кстати по поводу производительности Ceph умеет RDMA over IB?

teraflops Apr 17 2014 at 12:41

Для рекавери. Без свойства автоматического восстановления применять кластерную фс в публичном облаке нельзя.

teraflops Apr 17 2014 at 13:01

RDMA транспорт будет в обозримом будущем, но он не дает большого прироста на обычных операциях — уменьшается задержка, связанная с TCP стеком и соответствующая нагрузка на процессор, в современных системах тоже достаточно скромная удельно.

UUSER Apr 17 2014 at 12:44

Если клиент обращается к объекту, который находится в degraded состоянии, Ceph вне очереди восстановит объект и его копии, а затем выполнит запрос клиента. Такой подход обеспечивает минимальное латенси I/O даже тогда, когда восстановление кластера идет полным ходом.

Нет ли тут противоречия?

teraflops Apr 17 2014 at 12:49

К сожалению, тут вкралась неточность — не degraded, a recovering, т.е. восстанавливающийся в настоящий момент времени объект. Такой объект будет восстановлен с наибольшим приоритетом, потому что состояние recovering блокирует операции из-за возможного изменения положения primary копии.

ToSHiC Apr 17 2014 at 13:16

Вы держите реплики в разных ДЦ? Если да — как Ceph реагирует на проблемы с меж-ДЦ каналом?

teraflops Apr 17 2014 at 13:17

Нет, это как раз из области bad practices, мы упомянули об этом в статье.

ToSHiC Apr 17 2014 at 13:30

Вы про фразу

Теоретически, подобный подход позволяет осуществлять в том числе гео-репликацию в реальном времени, однако на практике это можно использовать лишь в режиме Object Storage, поскольку в режимах CephFS и RBD задержки операций будут слишком велики.

, да? Это понятно. Я почему-то полагал, что вы и Object Storage делаете.

Перефразирую тогда вопрос. Как ведёт себя Ceph при потере одной стойки? Через сколько секунд сервис начинает работать со штатными временами ответов? Данные, которые попали на вылетевшие машины, переходят в режим read only, или для них восстанавливается копия на свободных дисках?

teraflops Apr 17 2014 at 13:35

Если говорить о, допустим, трех стойках, RF=3 и одной вылетевшей, то латенси устаканится примерно за минуту. Данные, безусловно, доступны на чтение и на запись сразу после пересчета расположения новых primary копий(что в масштабе 500тб будет занимать 5-10 секунд).

teraflops Apr 17 2014 at 13:34

<тут был комментарий мимо ветки>

Infod Apr 17 2014 at 16:28

Если это не коммерческая тайна, какой примерно общий объем хранилища на базе ceph у вас? Сколько всего задействовано серверов/дисков непосредственно для хранения?

teraflops Apr 17 2014 at 16:55

Можем ответить для масштаба стойки — примерно 110 терабайт с учетом трехкратной репликации, то есть 350 «сырых».

Gular Apr 17 2014 at 16:29

Не планируете сделать сравнение Ceph, Gluster и DRBD? Понимаю, что последнее не имеет всех тех же возможностей. Но всё же.

teraflops Apr 17 2014 at 16:58

Гм, скорее нет — гластер настолько отстает в плане производительности, что делать сравнение равносильно принятию инвалида в грузчики по программе equal opportunities. Можно было бы сравнить Glusterfs и Cephfs — здесь первая, несомненно, впереди по ряду факторов, но это решение для очень узкого набора задач и, боюсь, практически никому не будет интересно.

vikarti Apr 17 2014 at 17:19

>аппаратный отказ одной ноды незаметен для пользователей как событие
если нода = OSD то как речь про отказ соответствующего физического диска? или нода=физический сервер?(но тогда, с учетом что по вашим словам у вас и Ceph и гипервизор на одних и тех же нодах, что будет с теми виртуалками что жили на этом сервере?)

teraflops Apr 17 2014 at 17:24

Нода — физический сервер. Виртуалки, безусловно, потеряют исполняемое состояние если нода «сгорит», то есть станет недоступной моментально, в этом случае они будут запущены заново в других местах автоматически. Аппаратный отказ подразумевает все иные классы событий — битая память, умерший бп, перегревающийся до троттлинга процессор и так далее.

Konkase Jan 28 2015 at 21:48

А виртуалки поднимаются в том же состоянии в котором они были в случае физического отказа сервера?
Что происходит в случае если виртуалка работает «boot-from-volume» и на compute ноде отваливается сеть?

teraflops Jan 29 2015 at 00:54

В первом вопросе у вас заключается сам ответ — да, безусловно, состояние и конфигурация виртуалок остаются. У нас нет противопоставления опенстековскому boot from volume — все машины всегда работают только с rbd. В этом случае нода приравнивается к сгоревшей и машины также перезапускаются.

Infod Apr 17 2014 at 17:29

Какую ОС используете для физических серверов (KVM гипервизоры и ноды ceph'a). Насколько хорошо эта ОС себя показала?

teraflops Apr 17 2014 at 17:33

Свой дистрибутив с базой на debian stable.

Jekel Apr 17 2014 at 19:46

смотрели ли вы в сторону FhGFS?

teraflops Apr 17 2014 at 19:50

Смотрели на этапе выбора, но у нее довольно конские лицензионные условия и очень мало информации по опыту применения в открытом доступе.

alrond Apr 18 2014 at 18:41

А на MooseFS?

teraflops Apr 18 2014 at 18:45

Не смотрели, но, судя по всему, правильно. POSIX слой с точкой монтирования в хосте — огромная проблема в плане совместимости.

UUSER Apr 18 2014 at 18:47

Совместимости чего с чем? Но moose здесь и правда не подойдёт, потому как надо выдавать блочные устройства, а moose всё-таки FUSE-based.

teraflops Apr 18 2014 at 18:50

Блочные устройства можно размещать на фс, в этом нет проблем. Проблема в том, что хост должен «уметь» эту фс. В случае Ceph гипервизор вообще не знает о том, что первый существует, и это хорошо — можно поставить пачку гиперви или esx хостов и подцепить к хранилищу через iscsi реэкспорт.

tgz Apr 18 2014 at 10:17

Я правильно понимаю, что Ceph нормально переваривает ситуацию, когда на нодах стороджа размер «сырых» дисков сильно разный?

teraflops Apr 18 2014 at 10:34

Да, достаточно правильно указать вес — впрочем, начиная с cuttlefish, вес ставится автоматически в зависимости от размера диска.

tgz Apr 18 2014 at 17:32

А как проходит миграция виртуалок? Не бывает ли проблем?
Или у вас всякие HA не используются?
А то после описанного бага в DRBD как то страшно.

teraflops Apr 18 2014 at 17:53

Нет, миграция совершенно прозрачная и без ощутимого даунтайма сети при переучивании маршрутов.

tgz Apr 18 2014 at 18:36

А рулится все это через OpenStack? Или что-то другое?

teraflops Apr 18 2014 at 18:48

Нет, оркестровка полностью самописная. К слову, мы считаем, что все опенсорсные продукты для оркестровки облаков очень сильно недотягивают до нашего уровня в смысле как минимум интегрированности компонент.

flaresun Apr 18 2014 at 13:29

в нашем облачном хостинге

А как бы посмотреть как будет меняться цена в вашем хостинге при выборе своих параметров при создании сервера? (в варианте «без границ»/«по потреблению»)
Не хочется создавать бесполезный аккаунт, а информация интересна. Может есть какой-нибудь demo-аккаунт для ознакомления с админкой?

teraflops Apr 18 2014 at 14:10

На днях выкатим соответствующую главную страницу, сейчас доверстываем.

vasilisc May 12 2014 at 11:46

Гуру подскажите, пожалуйста, нужен ли MetaDataServer если юзается Ceph Block Device (aka. RBD)? К примеру, кластер Proxmox юзает кластер Ceph.

teraflops May 12 2014 at 23:56

Нет, не нужен. В статье выше, к слову говоря, подробно расписаны роли демонов :)

vasilisc May 13 2014 at 07:46

Спасибо большое за ответ. Я на 99% понял роль MDS, но решил подвериться. Уфффф нет MDS нет проблем =) тем более его не удалить из кластера нормально.

alexander007 Dec 19 2014 at 12:48

А как обстоит дело с балансировкой по физическим линкам. Можно использовать multipath I/O совместно с Ceph? Или есть ли встроенный подобный функционал?

teraflops Dec 19 2014 at 19:20

Multipath не нужен в силу архитектуры продукта, можно использовать обычный бондинг для большей отказоустойчивости отдельной ноды хранилища.

alexander007 Dec 20 2014 at 11:37

Наверное я не верно сформулировал свой вопрос.

Предположим что у нас нет средств на приобретение 10G Ethernet и прочих скоростных вещей вроде InfiniBand. А в наличии есть 1G Ethernet, многопортовые карточки и коммутатор. В таком случае бондинг не сильно поможет. В случае применения бондинга путь от одной ноды до другой будет всегда пролегать через один и тот же порт. Можно заставить ядро linux чередовать отправку пакетов с нескольких интерфейсов, но в случае применения коммутатора это бесполезно.

multipath I/O в случае с iSCSI может позволить задействовать несколько линков одновременно без участия в этом процессе бондинга. Суть вопроса сводилась к том можно ли в ceph применять напрямую multipath I/O или в нем есть какие то свои механизмы для распределения трафика по нескольким физическим интерфейсам (в контексте повышения пропускной способности).

teraflops Dec 22 2014 at 15:43

В случае обычного коммутатора вам с очень большой вероятностью хватит линуксового balance-xxx. У цефа нет точек, являющихся средоточием пропускной способности, так что половинка от максимальной скорости на пару 5-tuple будет очень хорошо работать, за исключением граничных случаев (один клиент, потребляющий всю пропускную способность кластера).

vasilisc Dec 25 2014 at 10:54

Пожалуйста разжуйте ситуацию с Placement Group. Прочёл официальную документацию и не понял глубинного смысла в увеличении кол-ва PG.

teraflops Dec 25 2014 at 13:01

Чем больше число PG, тем более гладким получится псевдослучайное распределение данных. С другой стороны, при числе PG более 50..70к в одном пуле начинаются проблемы с производительностью кластера.