Pull to refresh

IBM и бурные выходные

Lumber room
Хочу поделиться историей о поломке дисковой системы IBM DS3000, подключенной двумя контроллерами по оптике к серверу, и корзинки IBM EXP3000, подключенной SAS кабелями к DS3000.
Началось всё пятничным вечером, когда сгоревший блок розеток на одной из стоек выбил аж 5 винтов из 10-го рейда на EXP3000, тогда я мысленно уже попрощался с хранимыми данными и поздоровался с трудовыми выходными.
Отключение/подключение винтов не принесло пользы. Далее начал разбирать проблему и перебирать варианты:
— обнулил контроллеры командой sysWipe. В первый раз не поднялась оптика на 1-ом контроллере, а 2-й перестал быть доступен по менеджмент порту. Во второй раз оптика поднялась, но оба контроллера отвалились по менеджмент портам.
— вынул из контроллеров батарейки. Предыдущие проблемы остались, но прибавились новые… вместе контроллеры работать перестали, на втором после инициализации повисает ошибка, причём по одному они замечательно работают (не замечательно конечно, но хотя бы ошибок не пишут).
— на всякий пожарный обновил биос сервера, сетевых карточек, IBM-овский софт.
— попробовал запустить корзинки без винтов. Помогло! 8) Алилуя! Корзинки загрузились и стали доступны по менеджмент портам, но стоит вставить хоть один хард, сразу все ошибки повторяются. Уже радуюсь, что хоть проблему локализовал!
Тем временем было уже 8 вечера воскресенья. Решил забить на всё, и восстановить БД на тестовую машину, чтобы в понедельник хоть в авральном режиме но юзеры поработали.
В понедельник пообщался на этот счёт с поддержкой IBM. Там мне подсказали мудрую и ключевую для решения трабла вещь! Вставить один новый, не где не юзаный винт в пустую корзинку. Дело в том что на старых винтах записалась ошибка, которая не давала спокойно подгрузиться корзинке.

В принципе сломалась и сломалась, всякое бывает. НО! Не пойму как промышленная дисковая подсистема может ложиться в полный даун из-за отключения питания, тащить за собой вторую корзинку (ведь до обнуления DS3000 работала), и ещё после полного обнуления вылетать из-за того, что на винтах какая-то ошибка висит…
Total votes 8: ↑7 and ↓1 +6
Views 363
Comments 7

Как правильно мерять производительность диска

Configuring Linux *System administration *Server optimization *
Tutorial
abstract: разница между текущей производительностью и производительностью теоретической; latency и IOPS, понятие независимости дисковой нагрузки; подготовка тестирования; типовые параметры тестирования; практическое copypaste howto.

Предупреждение: много букв, долго читать.

Лирика



Очень частой проблемой, является попытка понять «насколько быстрый сервер?» Среди всех тестов наиболее жалко выглядят попытки оценить производительность дисковой подсистемы. Вот ужасы, которые я видел в своей жизни:
  • научная публикация, в которой скорость кластерной FS оценивали с помощью dd (и включенным файловым кешем, то есть без опции direct)
  • использование bonnie++
  • использование iozone
  • использование пачки cp с измерениема времени выполнения
  • использование iometer с dynamo на 64-битных системах


Это всё совершенно ошибочные методы. Дальше я разберу более тонкие ошибки измерения, но в отношении этих тестов могу сказать только одно — выкиньте и не используйте.

Как мерять правильно
Total votes 151: ↑145 and ↓6 +139
Views 304K
Comments 164

Меряем производительность накопителей или снова про IOPS

Configuring Linux *System administration *Server optimization *
Sandbox
Навеяно постом уважаемого amarao о том, как надо измерять производительность дисков.

Цель:


Протестировать производительность имеющихся в наличии средств хранения информации и убедиться в верности выбранной методики, а также понять разницу в производительности между разными видами накопителей, а также enterprise-level и consumer-level жёсткими дисками.

Оборудование:


  1. SD-карта Sandisk Class 10 UHS 1 Extreme Pro 8 GB (до 95 Мбайт/с чтение, до 90 Мбайт/с запись)
  2. SD-карта Team Class 10 32 GB (до 20 Мбайт/с)
  3. SD-карта Transcend 2GB без класса скорости
  4. SSD-диск OCZ-AGILITY3 60 GB
  5. SATA-диск consumer-level Hitachi Deskstar HDS723020BLA642 2 ТБ 7200 об/мин, 64 Мбайт
  6. SATA-диск enterprise-level Western Digital RE3 WD2502ABYS-23B7A0 250 GB 7200 об/мин 16 Мбайт
  7. SATA-диск consumer-level Seagate Barracuda 7200.11 ST3320613AS 320 GB 7200 об/мин 16 Mбайт
  8. CD-ROM
  9. RAM-диск /dev/ram в Linux


Методика тестирования:


Методика полностью описана в посте. Есть правда несколько не совсем понятных моментов:
Мы подбираем такую глубину параллельности операций, чтобы latency оставалось в разумных пределах.
Задача подобрать такой iodepth, чтобы avg.latency была меньше 10мс.

Так как в тестировании используется не СХД и не диски SAS, а различные накопители SATA, то параллельность нам измерять нету смысла.
Очищать диск перед каждым тестированием (dd if=/dev/zero of=/dev/sdz bs=2M oflag=direct) очень времязатратно, поэтому будем это делать перед тестированием один раз на каждый накопитель.
Тестировать весь диск полностью очень времязатратно, поэтому будем использовать тестирование в течении 30 секунд.
Итак, сформулируем методику тестирования для нашего случая:
Получить значение IOPS, выдаваемое накопителем при произвольном чтении и записи блоками по 4 Кбайт и задержке avg.latency не более 10 мс за время теста в 30 секунд. Также для полноты картины измерим скорость линейной записи.
Читать дальше →
Total votes 21: ↑12 and ↓9 +3
Views 25K
Comments 21

Современные RAID контроллеры Adaptec от А до Я. Часть 1

Тринити corporate blog IT Standards *
Недавно наткнулся на полезную и очень подробную статью Adaptec, которая описывала ну просто все нюансы работы контроллеров, пугал разве что объем в 60 страниц. Возникло естественное желание сократить и разделить статью на 2 куска:
  • Часть 1. Общие сведения о RAID контроллерах (много теории, азы)
  • Часть 2. Классификация контроллеров Adaptec (здесь всё очень конкретно – серии контроллеров, функции каждой серии, таблицы, картинки)

Материал будет интересен всем, кто связан с хранением данных – инженерам-интеграторам, системным администраторам и конечным пользователям.

Собственно, Часть 1.

image

Читать дальше →
Total votes 12: ↑8 and ↓4 +4
Views 86K
Comments 13

Современные RAID контроллеры Adaptec от А до Я. Часть 2

Тринити corporate blog IT Standards *
Ранее публиковал первую часть, в которой описывались общие сведения о RAID контроллерах (азы читать здесь), были вопросы и интерес, выкладываю уже «мясной» кусок. Здесь всё очень конкретно – подробная классификация контроллеров Adaptec, функции каждой серии контроллеров, таблицы, картинки и т.д.

image

Читать дальше →
Total votes 12: ↑10 and ↓2 +8
Views 40K
Comments 31