realloc 11 мая 2011 в 14:46

Новая зонированная система хранения данных Clodo

3 мин

6.7K

Блог компании Clodo

+25

Комментарии 37

kronos 11 мая 2011 в 14:54

А что такое «обычный облачный хостинг»? Отдельно взятый облачный провайдер, название которого не указывается или что?

lumenous 11 мая 2011 в 14:58

Это наверно Скалакси
=))))))))

+11

arree 11 мая 2011 в 15:02

Это как «обычный стиральный порошок». Никто их не видел, но сравнения хорошие.

+12

mvs 11 мая 2011 в 14:58

Существующие VPS'ы клиентов уже используют данную СХД или она только для новых?

damad 11 мая 2011 в 14:58

Все новые виртуальные машины создаются на новой системе хранения данных. Часть старых клиентов уже также переведена на новую СХД. Постепенно будут переноситься и все остальные клиенты. Если вы — клиент Clodo и хотите перейти на новую систему, просто подайте заявку в техническую поддержку.

mvs 11 мая 2011 в 15:04

Клиент, хочу, подал :-)

MaXyC 12 мая 2011 в 07:52

пошел делать бекапы…

damad 12 мая 2011 в 07:55

Перед перенос мы делаем бэкап сами.

MaXyC 12 мая 2011 в 08:05

верю 100%, но бывают человеческий фактор, да и за последние пол года все равно бекапов нет у меня… *каюсь*

arree 11 мая 2011 в 15:01

50 гигабайт в секунду на запись? Вы уверены?
Также интересно, как быстро будет идти live-миграция между зонами. Диски тоже ведь нужно с зоны на зону мигрировать?
Ну и инфинибэнд-коммутатор как, на каждой зоне свой?

Вообще, технических подробностей тут так и не появилось толком, сплошной пресс-релиз (

realloc 11 мая 2011 в 15:06

50 Гб/с это средняя скорость заполнения кеша через два Infiniband адаптера. Несколько Xen-нод вполне в силах дать такую нагрузку.
Live миграция есть, естественно синхронизация дисков между зонами занимает некоторое время, но происходит достаточно быстро, всё по тому же Infiniband.

Технические подробности скорее всего будут в следующих постах.

arree 11 мая 2011 в 15:10

Мне сложно представить быструю синхронизацию 500Гб дисков и то, как это повлияет на клиентов на таргет-ноде (да и на соурс-ноде тоже). Это же очень, очень много рандомного чтения и записи именно на диски, а не в кеши.

lohansky 11 мая 2011 в 15:13

Линейного, но все равно много.

arree 11 мая 2011 в 15:16

Да, прошу прощения, линейного.

realloc 11 мая 2011 в 15:14

Большой кеш на таргете сделан именно для сдерживания всплесков активности по I/O. Потом он с разумной скоростью скидывается на диски. Опять же вероятность таких всплесков на значительное время достаточно мала.

arree 11 мая 2011 в 15:29

Даже 100Гб вряд ли влезет в кэш, не вытеснив оттуда всё и вся (хотя, конечно, зависит от ваших нод, может там четверть терабайта ОЗУ на каждой… Впрочем, графики говорят об обратном).
Держать образ диска ВМ целиком в кэше (или вообще держать часть только в кэше, пока она скидывается на диск) — это очень опасно, мне кажется. Малейший сбой, и клиент прощается с данными.
Также интересно, как при живой миграции машины между зонами это выглядит с т.з. мигрирующего инстанса. Чтение/запись не проседают, изменения (попадающие в кэш на старой ноде?) корректно дописываются?

Конечно, стоило бы дождаться хоть каких-то технических подробностей, но уж очень интересно.

realloc 11 мая 2011 в 15:44

Live миграция между зонами в жизни VPS не должна происходить часто, только при кардинальной смене поведения на долгое время и только если мешает жить другим. Да, это дорогая и не быстрая операция, статистически такое происходит крайне редко. Скорость I/O при этом падает, но не более 50% в худшем случае.

Что бы не потерять данные из кешей мы делаем репликацию. И, как видно из графика, при наступлении голодания по кешам производительность хранилища упадёт на некоторое время. Чудес, как известно не бывает, но мы старались сделать жизнь лучше для среднего, наиболее вероятного случая нормальной работы.

arree 11 мая 2011 в 15:49

Репликацию для того, чтобы в памяти остались кеши? Можете подробнее рассказать?

lohansky 11 мая 2011 в 15:09

А данные как реплицируются на две сторадж ноды?

sfcr 11 мая 2011 в 15:14

«А вот!» ;) (посредством md)

lohansky 11 мая 2011 в 15:24

А чем кэшируете в dom0?

sfcr 11 мая 2011 в 15:36

Скорее не кэшируем, а буферизуем. Более детально, некоторые технические аспекты мы, возможно, рассмотрим в последующих статьях.

multagor 11 мая 2011 в 15:16

Интересно: насколько утилизируется полоса Infiniband при обращении виртуальных машин к дискам в своей «зоне»? И какая нагрузка на самом ядре Infiniband?

arree 11 мая 2011 в 15:19

Тут ещё интересна архитектура Infiniband. Судя по схеме, в каждой зоне свой коммутатор, но они должны быть как-то связаны между собой и управляющим кластером => ещё один… Не многовато?
Или один коммутатор на всех, но это совсем не «абсолютно независимы».

lohansky 11 мая 2011 в 15:24

Они же маленькие свитчики используют, отсюда более расточительная топология дерево и отсюда же зоны, так как между свитчами инфу особо не погоняешь. В Скалакси тоже ведь зонирование, просто размер зоны на порядок больше.

feedbee 11 мая 2011 в 15:46

Хороший ответ «обычному» облачному хостингу :)

AlexoLive 11 мая 2011 в 15:57

Кому это важно, на новой СХД сейчас доступен всего один автоматический бекап который заменяет ручной.

realloc 11 мая 2011 в 15:59

Подождите немного, будет запущена новая система бэкапов. Как просили пользователи.

easy_john 11 мая 2011 в 17:06

Привет, поздравляю с первым постом. :)
По теме как/чем вы делали кеширование на чтение?
35к иопсов кто получает? отдельная машина, или это общее на стор?
Как с гарантированнными iops на виртуалку?
Кто такой «обычный облачный»? :)
С селектелом производительность дисков сравнивал?

realloc 11 мая 2011 в 17:19

Утро!
Тесты делались на нескольких виртуалках одновременно при средней загруженности стораж зоны с выключенными шейперами. В реальности шейперы будут ограничивать иопсы в зависимости от размера виртуалки. Так что 35к в графиках тестов именно на машину.

Минимальные гарантии пока не буду озвучивать, по мере населения новых зон мы будем распределять относительно поведения, по результатам скорее всего оформим отдельную статью позже. И вообще прочие технические подробности не в этом посте.

Про «обычный облачный» легко догадаться.
С Селектелом сравнение можно вывести из других статей на хабре. =)

easy_john 11 мая 2011 в 17:39

А какая связь между размером виртуалки и иопсами?

Да, я там заметил уже, что 35к это на запись, ее всегда проще кешировать, а на чтение там 15к.

Ладно, будем ждать подробностей. И кеширование на чтение очень интересно.

realloc 11 мая 2011 в 18:01

Связь в том, что 5 виртуалок по 5 гб диска должны суммарно получать иопсов столько же, сколько машина с диском на 25Гб, например. Ибо справедливо.

easy_john 11 мая 2011 в 18:08

В чем справедливость? Эти пятеро хранят там свои домашние архивы, и потребляют сто иопсов в месяц, а я создал минимальную виртуалку, которая постоянно обрабатывает гигибайты полезных данных.

realloc 11 мая 2011 в 18:15

There is no justice there is only me…

Я имел ввиду что в реальности вес для шейпера выставляется относительно объёма потребления ресурсов. Кроме диска есть ещё ряд параметров которые надо учесть и формула выглядит сложнее. Но это уже технические подробности не из этой статьи.

damad 11 мая 2011 в 18:16

Кол-во иопсов напрямую зависит от денег которые клиент тратит на виртуальный сервер. И это справедливо.

easy_john 11 мая 2011 в 18:21

Почему просто не продать иопсы? Если я их массово потребляю — я буду за них платить и не буду впустую покупать ненужное мне место на сторе, и наоборот, если мне надо много места но не нужны иопсы — оплачу только место.

damad 11 мая 2011 в 18:26

Есть такое в планах.

Зарегистрируйтесь на Хабре , чтобы оставить комментарий