Pull to refresh
6
0
Евгений @ess1980

Системный администратор

Send message

Еще раз спасибо за помощь в решении проблем и за то, что читали длинные портянки с описанием и диагностикой).

Надеюсь со временем все мелкие недочеты будут устранены. Как говорится: "Путь наш извилист, но перспективы наши светлые".

Я допускаю, что в лабораторных условиях возможно "под хорошей нагрузкой выдёргиваешь контроллер и единственное, по чём это заметно - это запись в логе". В реальности "есть один нюанс...". Даже не один.

Во первых как быстро сервер будет определять что MPIO путь потерялся. Если контроллер "выключился" он уже не ответит. Т.е. тут будет некий таймаут. Сильно меньше секунды его не сделать. Иначе при любом повышении нагрузки будут ложные срабатывания и пути будут теряться. Если в какой-то момент они потеряются все получим IO error. Multipathd тюнить я не пробовал - 10 секунд для нас некритично.

Во вторых XS1224 не поддерживает диски SAS dual port. Т.е. в один момент времени с дисками работает только один контроллер (есть настройка preferred controller для пула). Если preferred controller выходит из строя второй должен понять, что первый не отвечает и начать сам работать с дисками. Это напоминает HA кластер и сильно уменьшить таймаут тут тоже не получится - будут ложные переключения.

Строго говоря, стоило бы называть Active-Active только конфигурации с SAS DP. Но что поделаешь, маркетинг... Снаружи то MPIO работает - не подкопаешься.

Другой разговор, что работает оно похоже за счет того, что второй контроллер запросы от сервера редиректит на preferred controller.

Я тестировал на SSD есть ли разница через какой контроллер сервер подключен к СХД - с preferred controller получалсь до 40% быстрее. Правда это а) было на firmware 1.4.2 - может что-то уже поменялось. б) c HDD будет незаметно - раньше упремся в производительность дисков.

P2000 приобреталась в 2012 году. К 2019 и гарантия и поддержка закончились. В поддержке HP предложили купить новый контроллер, но цена и сроки поставки нас не устроили.

Нашли на авито Б/У контроллер, купили в один день, обновили на ту-же версию firmware (деталей не помню уже, по моему обновленная прошивка на midplane не работала со старой в контроллере), запустились. Конфигурация хранится в midplane, поэтому все поднялось и обошлось без потери данных.

Действительно Active-Active. Правда контроллеры на горячую не выдергивали, но при обновлении firmware контроллеры обновляются и перегружаются по очереди. Лаг на IO при этом получился около 10 секунд. Значение по умолчанию для scsi timeout в linux 30 секунд.

Оно и с брендами - без гарантии. Со старой СХД HP P2000 после обновления firmware штатной утилитой вместо контроллеров получили 2 "кирпича". Вероятно по причине того, что ревизии контроллеров отличались. До этого дважды успешно обновлял через загрузку образа firmware по FTP.

Спасибо. Если статья окажется полезной я буду рад - не зря писал.

Information

Rating
Does not participate
Location
Россия
Registered
Activity