master1981 Dec 13 2012 at 04:29

Собери сам: как мы сделали хранилище Amazon-style для небольших хостеров

10 min

20K

Parallels corporate blog

+11

Comments 33

ToSHiC Dec 13 2012 at 05:51

Как реплицируется MDS и на сколько сказываются задержки меж-дц линков? Как сказываются на записи небольшие потери пакетов, вызывающие в итоге ретрансмиты? Кто апдейтит в MDS запись о том, что какой-то сервер не смог себе записать кусочек? Если апдейтим 1 байт, то сохранять надо будет весь 64-мегабайтный кусок?

В общем, хочется подробностей, как собственно запись то идёт.

master1981 Dec 13 2012 at 09:13

По порядку.

> Как реплицируется MDS?

Реплицируется с помощью распределенного журнала работающего на базе протокола Paxos.

> Как сказываются на записи небольшие потери пакетов, вызывающие в итоге ретрансмиты?

Как с любым видом трафика и протокола — не в положительную сторону. Клиентам предлагается использовать выделенную сеть для трафика хранилища, чтобы изолировать ее от пользовательского трафика, в целях безопасности и избежания DDoS-атак.
По умолчанию используется TCP.

> Кто апдейтит в MDS запись о том, что какой-то сервер не смог себе записать кусочек?

Клиент.

> Если апдейтим 1 байт, то сохранять надо будет весь 64-мегабайтный кусок?

Нет. 1 байт апдейтит 1 байт в каждой реплике.

ilukyanov Dec 13 2012 at 07:02

Сколько будет стоить и как будет тарифицироваться?

sopov Dec 13 2012 at 10:11

Поддерживаю вопрос.

master1981 Dec 13 2012 at 11:13

Parallels Cloud Server сдается в лизинг, провайдер перечисляет ежемесячные платежи.

PCS лицензируется следующим образом:
1) По максимальному количеству одновременно запущенных виртуальных машин и/или контейнеров для каждого узла с ними;
2) По количеству серверов в хранилище (с ролями Chunk и/или MDS);
3) По объему сырого дискового пространства в хранилище. Чем больше хранилище, тем дешевле за каждый гиг.

И да, лицензии можно докупать по мере роста.

Abyasov Dec 13 2012 at 16:59

Интересно, насколько дешевле получается такое решение по сравнению с энтерпзайзом?

И как в общем выглядит процесс интеграции системы? Понятно, что покупается куча железа для хранения данных, но что происходит с дисками, которые уже стоят в серверах с виртуалками?

lehha Dec 13 2012 at 07:48

Как вы оцениваете время снятия снепшопа памяти в 64Гб? Даже если на SSD?

master1981 Dec 13 2012 at 09:14

200-600 секунд. Пока снимается снэпшот, система не стоит на месте. Это делается в бэкграунде.

lehha Dec 13 2012 at 10:17

Т.е. актуальность данных может отставать до 10 минут при падении?

psman Dec 13 2012 at 11:01

Во время снэпшота данные при записи не уходят в обе «копии» ли?

master1981 Dec 13 2012 at 13:12

Снэпшот метаданных MDS не имеет никакого отношения к данным, которые пишет пользователь. MDS-метаданные реплицируются в количестве запущенных MDS-серверов. Мы рекомендуем 3 или 5 серверов в зависимости от размера кластера, что позволяет пережить потерю до одного или двух MDS-серверов.

master1981 Dec 13 2012 at 13:13

Нет, это снэпшот состояния MDS. Отставать он не может потому, что есть еще журнал. То есть текущее состояние — это снэпшот плюс журнал на диске.

ilukyanov Dec 13 2012 at 10:17

Еще вопрос: какие минимальные/желательные требования к интерконнекту? Гигабитная сеть это ок?

master1981 Dec 13 2012 at 13:10

Вполне. Хотя, конечно, если на каждом сервере по 8 дисков, то лучше уже 10 Гбит. В случае с 1 Гбит вы будете ограничены 100 Мб/сек., но прелесть в том, что обычно за редким исключением приложения генерируют более-менее рандомную нагрузку на диск, и в ограничение сети вы вряд ли упретесь. 95% машин, которые мы проанализировали в 6 дата-центрах, имеют в среднем всего лишь 20-30 Мб/сек., при том что в них, как правило, RAID и несколько дисков.

pluser Dec 13 2012 at 10:30

Круто! А где купить такой настенный светильник?

master1981 Dec 13 2012 at 12:54

В личку отправил.

egorF Dec 13 2012 at 10:32

хранит полное состояние об объектах и их версиях в памяти

А если оба сервера MDS падают (отключили питание в стойке), то метаданным конец? Или предполагается что второй сервер MDS находится в другом месте?

ToSHiC Dec 13 2012 at 10:57

Как написали выше, MDS синхронизируется по paxos, так что их как минимум 3 штуки. Опять же, не надо такие машины ставить в одну стойку! Они обязаны питаться от разных линий.

egorF Dec 13 2012 at 11:02

Ага, т.е. assumption таков, что как минимум один сервер выживет. Вполне норм.

А если все-таки все умрут, то он умеет как-то перестраивать свои данные из хранилища?

NetAngels Dec 13 2012 at 10:34

Чем принципиально ваш Cloud Storage отличается от glusterfs и можно ли его использовать отдельно от Parallels Cloud Server, скажем, с KVM/XEN?

master1981 Dec 13 2012 at 11:49

Пока идея такая, чтобы использовать строрадж с нашей виртуализацией. А потом посмотрим. Не исключено, что появится отдельная версия с поддержкой KVM/XEN. Если задумаем делать, будете бета-тестерами?

NetAngels Dec 13 2012 at 11:50

С удовольствием :)

master1981 Dec 13 2012 at 12:05

Тогда можно в личку координаты? Нам надо понять насчет вашей инфраструктуры кое-что.

master1981 Dec 13 2012 at 13:05

Принципиально от GlusterFS отличается тем, что рассчитан на выживание в условиях сбоев. GlusterFS по сути не поддерживает никаких знаний о том, какие части файлов рассинхронизовались и какая из копий актуальна, а какая устарела. Легко продемонстрировать, как в случае сбоев читаются устаревшие данные и даже размер файла пляшет в зависимости от того, кто его возвращает. А после сбоя GlusterFS может синхронизовать целиком гигансткие файлы, при том что изменился лишь один байт.

UFO just landed and posted this here

xdeller Dec 13 2012 at 13:19

Не измеряли, какие скорости получаются на том же гигабите, при условии, что диски упираются не в него? Ну и результаты fio на последовательную/случайную запись с большими блоками были бы очень интересно увидеть.

Dima_Kirk Dec 13 2012 at 13:27

На sheepdog очень похоже.

gatech Dec 14 2012 at 01:16

Немного непонятно, с таким подходом для storage и compute всё равно используются разные физические сервера, так? А не думали над вариантом объединить storage и compute? То есть, вместо скажем 1U или блейд-серверов для машин клиентов и 2U-4U нод для стораджа, использовать 1U/2U ноды с дисками для всего вместе — диски и часть сетевых портов отделить для распределённого хранилища (можно даже сам сторадж сделать на virtual appliance с raw disk passthrough), а CPU и большую часть RAM оставить на контейнеры клиентов.

master1981 Dec 14 2012 at 07:31

У нас storage и compute как раз объединены. То есть на одном сервере могут быть расположены как машины клиентов, так и узлы хранения (chunk и mds). Можно даже весь PCS целиком разместить в виртуалке.

MrBalu Dec 14 2012 at 20:24

Очень круто. Мы с партнёрами как раз рассматривали этот сегмент бизнеса.
Интересуют подробности. У вас уже есть какие-то рассчёты порога входного объёма данных для вашей системы и окупаемости?

master1981 Dec 17 2012 at 08:36

Да, это всё считается под конкретного провайдера и его инфраструктуру. Если можно, ваши контакты в личку.

slimlv Dec 16 2012 at 10:25

В opensource что-нибудь упадёт?

-1

slimlv Dec 16 2012 at 10:28

Какие клиентские интерфейсы доступны?