Pull to refresh

Comments 16

Получился настоящий детектив от системного администратора - хоть текст и длинный, но все равно хочется дочитать и узнать, чем закончилось

Спасибо. Если статья окажется полезной я буду рад - не зря писал.

Интересный опыт… Как то возникает ощущение, что вы приключения любите. Была у нас где то с 2010 по 2015 EMC cx4-120 с sad кэшем. Купили, включили, через пять лет заменили (продление поддержки не стоило своих денег) на EMC VNX 5200 с tiering’ом. Потом появился требовательный сервис, и через два года добавили ssd полку (они как раз резко подешевели). В этом году и ее заменили на PureStorage. После перевода в production, никакие настройки вообще никогда не трогаем. Только LUNы создаём или расширяем.

СХД за пределами брендов основной старейшей «кучки» производителей — лотерея. Вы вытянули не выигрышный билетик, не повезло.

Оно и с брендами - без гарантии. Со старой СХД HP P2000 после обновления firmware штатной утилитой вместо контроллеров получили 2 "кирпича". Вероятно по причине того, что ревизии контроллеров отличались. До этого дважды успешно обновлял через загрузку образа firmware по FTP.

Поддержка что ответила? Заменили контроллер?

P2000 приобреталась в 2012 году. К 2019 и гарантия и поддержка закончились. В поддержке HP предложили купить новый контроллер, но цена и сроки поставки нас не устроили.

Нашли на авито Б/У контроллер, купили в один день, обновили на ту-же версию firmware (деталей не помню уже, по моему обновленная прошивка на midplane не работала со старой в контроллере), запустились. Конфигурация хранится в midplane, поэтому все поднялось и обошлось без потери данных.

Если что, поддержка ещё не закончилась даже в 21 году. Но если она не была куплена на тот момент, то вопросов нет

Проверяли ли тот факт, что два контроллера действительно "Active-Active"? Был опыт тестирования СХД, которая также заявлена "Active-Active", но при выдёргивании активного контроллера диски на хостах были недоступны 43-45 секунд, а официальный саппорт сказал "там на .... странице написано, что все сервисы (которые располагают свои данные на СХД) должны быть настроены на таймаут по диску 90 секунд, соответственно 45 секунд переключения не является проблемой". Поэтому перед покупкой лучше взять у вендора/интегратора аналогичный девайс на тест. Если "нет возможности предоставить", то лучше не связываться с таким оборудованием. Хорошие СХД всегда дают попробовать. Кроме того, это даёт возможность проверить не только синтетическими тестами, а реальной нагрузкой.

Действительно Active-Active. Правда контроллеры на горячую не выдергивали, но при обновлении firmware контроллеры обновляются и перегружаются по очереди. Лаг на IO при этом получился около 10 секунд. Значение по умолчанию для scsi timeout в linux 30 секунд.

Если лаг есть, значит всё же второй пассивный. При этом очень странно, что при обновлении, когда ребут штатный, СХД не передала корректно управление второму контроллеру.

Timeout iSCSI то 30 секунд, но приложения, которые там хранят данные, могут быть разные и не все из них выдержат. Нормальный Activ-Active - когда под хорошей нагрузкой выдёргиваешь контроллер и единственное, по чём это заметно - это запись в логе, что часть путей потерялись.

Я допускаю, что в лабораторных условиях возможно "под хорошей нагрузкой выдёргиваешь контроллер и единственное, по чём это заметно - это запись в логе". В реальности "есть один нюанс...". Даже не один.

Во первых как быстро сервер будет определять что MPIO путь потерялся. Если контроллер "выключился" он уже не ответит. Т.е. тут будет некий таймаут. Сильно меньше секунды его не сделать. Иначе при любом повышении нагрузки будут ложные срабатывания и пути будут теряться. Если в какой-то момент они потеряются все получим IO error. Multipathd тюнить я не пробовал - 10 секунд для нас некритично.

Во вторых XS1224 не поддерживает диски SAS dual port. Т.е. в один момент времени с дисками работает только один контроллер (есть настройка preferred controller для пула). Если preferred controller выходит из строя второй должен понять, что первый не отвечает и начать сам работать с дисками. Это напоминает HA кластер и сильно уменьшить таймаут тут тоже не получится - будут ложные переключения.

Строго говоря, стоило бы называть Active-Active только конфигурации с SAS DP. Но что поделаешь, маркетинг... Снаружи то MPIO работает - не подкопаешься.

Другой разговор, что работает оно похоже за счет того, что второй контроллер запросы от сервера редиректит на preferred controller.

Я тестировал на SSD есть ли разница через какой контроллер сервер подключен к СХД - с preferred controller получалсь до 40% быстрее. Правда это а) было на firmware 1.4.2 - может что-то уже поменялось. б) c HDD будет незаметно - раньше упремся в производительность дисков.

блин, чудо не случилось, но хоть какой-то опыт

Евгений, спасибо вам за такой подробный и профессиональный обзор нашего оборудования. Для вендора и для нас, как их дистрибьютера, очень важна обратная связь от конечных пользователей наших решений. Сожалеем, что вам пришлось столкнуться с рядом проблем, и не все ваши ожидания оправдались. С вашей помощью мы станем лучше)).

Всегда открыты для любых ваших вопросов, комментариев и готовы помочь с решением проблем через службу поддержки support.qsan.su.

Еще раз спасибо за помощь в решении проблем и за то, что читали длинные портянки с описанием и диагностикой).

Надеюсь со временем все мелкие недочеты будут устранены. Как говорится: "Путь наш извилист, но перспективы наши светлые".

Sign up to leave a comment.