AccelStor 24 янв 2019 в 10:18

AccelStor – собственный взгляд на работу All Flash

10 мин

2.5K

Блог компании AccelStor Ltd.IT-инфраструктура*Виртуализация*SAN*Хранилища данных*

Комментарии 16

Smasher 26 янв 2019 в 22:27

Из текста не особо понятно как происходит защита данных на дисках в рамках одной ноды.

Т.е. поступившие блоки данных объединяются в цепочки, кратные «страницам», и только потом записываются на SSD.

Все промежуточные действия над данными алгоритмом FlexiRemap выполняются в оперативной памяти контроллера. Но массив выдаст подтверждение хосту об успешном завершении операции только после физической записи на SSD.

Как при использовании подхода описанного выше получается получить низкие задержки?
Объединение данных в цепочки подразумевает накопление этих данных в кэше. При условии, что подтверждение хост получает только после фактической записи данных на SSD, то задержки на запись не могут быть низкими.

Что делать если производительности пары контроллеров не хватает? Какие варианты масштабирования?

AccelStor 28 янв 2019 в 09:19

Если формально подходить к вопросу, то да, на некоторое время данные помещаются в ОЗУ ноды. Но подтверждение записи выдается только после физического размещения блоков на накопителях. Поэтому такой подход называют «без использования кэша». Низкие задержки достигаются за счет скорости обработки блоков ввода/вывода.
Защита данных в рамках ноды достигается за счет использования контрольных сумм (фактически — минус объем одного SSD в группе). Но алгоритм иной, не как в RAID.
Система пока что не масштабируется выше двух контроллеров. Но разработки в этом направлении ведутся.

Smasher 29 янв 2019 в 17:09

Для чего данном случае контрольные суммы? Это erasure coding? Тогда какая схема защиты используется?
Контрольные суммы могут служить вообще для проверки целостности записанных блоков T10-DIF, но при этом никак не обеспечивать защиту данны при выходы из строя SSD.
EC опять-таки накладывает задержки, особенно при записи мелкими блоками.

Низкие задержки достигаются за счет скорости обработки блоков ввода/вывода.

Это не ответ. Объединение данных в цепочки подразумевает храние их в памяти. По вашему же тексту, подтверждения хосту нет пока данные не попали на SSD.

AccelStor 29 янв 2019 в 17:19

Это не ответ. Объединение данных в цепочки подразумевает храние их в памяти. По вашему же тексту, подтверждения хосту нет пока данные не попали на SSD.

Паспортное значение latency для SSD ~40us. По приведенным тестам выше у массива при записи latency ~90us. Это и есть накладные расходы на формирование цепочек из поступающих блоков пока данные в ОЗУ ноды, но еще не на накопителе.

Контрольные суммы могут служить вообще для проверки целостности записанных блоков T10-DIF, но при этом никак не обеспечивать защиту данны при выходы из строя SSD.

Т.е. вы не верите, что выдернув любой SSD, массив не развалится?

Smasher 30 янв 2019 в 00:13

Забавная аргументация. Вы написали пост, в котором вроде как объясняете технологические особенности продукта. При этом на конкретные вопросы про принципы работы ответить не можете.
Каким образом у нас 890 микросекунд превращаются в 90 микросекунд?

AccelStor 30 янв 2019 в 09:15

Каким образом у нас 890 микросекунд превращаются в 90 микросекунд?

Пардон, нулем ошибся. Да, 890us задержка

ganinmv 28 янв 2019 в 09:10

SSD Enterprise класса. Чаще всего с интерфейсом SATA, т.к. работы с двумя контроллерами не требуется. Имеются также модели All Flash массивов на базе NVMe дисков.

Хочется услышать уточнения по этим моментам? То есть вы используете обычные Sata диски и ставите переходник Sata<-->SAS и называете это Enterprise?

Умеет ли СХД NVMe over Fibre Channel?

AccelStor 28 янв 2019 в 09:31

В серверном сегменте под «обычными» SSD понимают консьюмерские/десктопные модели (аля Kingston или A-Data). Enterprise SSD — это SSD, рассчитанные на серьезные нагрузки, например, Intel, HGST и пр. Диски подключаются напрямую без каких-либо переходников SATA-SAS.

Умеет ли СХД NVMe over Fibre Channel?

Текущие модели нет. Сейчас активно разрабатывается решение NVMe-oF

ganinmv 28 янв 2019 в 10:54

Умеет ли СХД NVMe over Fibre Channel?

Текущие модели нет. Сейчас активно разрабатывается решение NVMe-oF

Так это не одно и тоже разве?

AccelStor 28 янв 2019 в 11:08

Не совсем. В качестве транспорта не обязательно используется Fibre Channel.

ganinmv 31 янв 2019 в 22:23

Интересная у вас железка. Мы можем рассмотреть ваше решение для задач нашей компании. Если будет интересно сотрудничество с российским ретейлом напишите мне в личку.

vtolstov 7 фев 2019 в 15:44

А зачем проверка пульса по ethernet? Латенси больше и не ясно, допустим IB не работает, а по ETH все ок. Что дальше?

AccelStor 7 фев 2019 в 16:44

Основной канал для обмена между нодами конечно же IB. Но его как-то нужно дублировать «за недорого». Пульс же все равно с некоторыми интервалами измеряется, latency в Ethernet этому не помеха.
Если IB выйдет из строя, одна из нод перейдет в offline, т.к. синхронизация будет недоступна. Если же Ethernet сломается, то просто alarm.

vtolstov 7 фев 2019 в 17:36

Вы не ответили на вопрос. ИБ56 Гб, эзернет 1гб или 10? что дублирует в итоге то?
Я знаю про распределение контрол трафика и дата. Но не очень пока понимаю суть у вас.
Более того с иб можно и qos выделить для контрол трафика.

AccelStor 8 фев 2019 в 09:20

Еще раз. Основной канал обмена информацией между нодами — это IB 56G. Канал теоретически может выйти из строя. Об этом нужно как-то узнать. Нужен резерв исключительно для проверки пульса. В качестве такого резерва используется 1G Ethernet.

vtolstov 7 фев 2019 в 17:38

Если эзернет только для ссш, тогда не ясно к чему про дублировать за недорого.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий