Беззащитные данные

    В голове крупных бизнес-потребителей ИТ произошло наконец-то смещение акцента с бизнес-приложений на данные, обрабатываемые этими приложениями. А в словосочетании «центр обработки данных» теперь заслуженно выделяют третье слово, а не второе. Вместе с пониманием главной роли данных в бизнесе пришёл и панический страх их утери. Ведь по статистике IDC, в случае продолжительного отсутствия доступа к оперативным данным большинство компаний ожидает банкротство.

    Существует два принципиально разных подхода к обеспечению надёжности хранения данных. Первый – это резервное копирование. С резервированием связаны два главных понятия – RPO (recovery point objective) и RTO (recovery time objective). RPO – это момент времени, в который система содержала данные, соответствующие резервной копии. RTO – это время, занимаемое процессом резервирования/восстановления. Естественно, что с ростом объёма корпоративных данных, RTO растёт пропорционально объёму данных, а RPO возникают всё реже и реже. А значит, самые свежие, самые ценные данные становятся наиболее уязвимыми, и их объём при этом возрастает.

    Второй подход – это «data is always there», то есть защита данных непосредственно в системе хранения, в момент их попадания туда. А это означает real time RPO и стремящееся к нулю RTO. Этот подход усиленно продвигается грандами систем хранения данных (в частности, компанией EMC). Самый популярный способ обеспечения защиты по предложенной концепции – RAID (redundant array of independent disk; кстати, ранее вместо слова «independent» фигурировало «inexpensive», что для современных fibre channel дисков вряд ли применимо). Принцип действия заключается в объединении нескольких дисков в группу и хранении в ней данных и избыточной информации. Думаю, нет особого смысла рассказывать про уровни RAID, поскольку нас сейчас интересует самый популярный уровень – 5.
    ((cut))
    В RAID5 группе данные сохраняются «размазанными» по всем дискам, также «размазанными» сохраняются и коды коррекции – информация, требующаяся для восстановления данных. Её избыточность для RAID5 составляет оптимальные 25% от объёма полезных данных. RAID5 построен таким образом, что группа выдерживает отказ одного диска единовременно.

    Казалось бы, при такой технологии хранения, данные действительно always there. Давайте посмотрим насколько «always». Тонкий момент здесь заключается в том, что группа выдерживает отказ только одного диска в один момент времени. Даже если вы моментально заменяете этот диск, группе требуется определённое время для того, чтобы восстановить на этот диск данные и коды коррекции (rebuild). Данные, естественно, при этом доступны, но если во время проведения процедуры rebuild произойдёт отказ ещё одного диска, то группа будет разрушена. Чем больше дисков в группе и чем больше объём каждого диска, тем более частым будет отказ одного из них, и тем больше времени требуется на rebuild. Вплоть до того, что RAID5 группа из большого количества недорогих объёмных дисков может полностью разрушаться несколько (3-4 раза) раз за год!

    Решение этой проблемы во введении двойной коррекции, RAID6 или RAID5 DP. Такая группа выдерживает отказ уже двух дисков в один момент времени (как мы выяснили выше, «момент» для больших групп довольно продолжительное время процедуры rebuild). Отказ двух дисков подряд событие не частое. Теоретически, для групп менее 20 ТБ уровень RAID6 обеспечивает на 2 порядка лучшую защиту данных (время до потери данных) для дисков со средними параметрами, чем RAID5.

    Практика заставляет усомниться в теории вероятности: выход из строя второго диска в момент rebuild весьма вероятен. Особенно это касается систем, находящихся под серьёзной рабочей нагрузкой. Влияют на это два фактора. Во-первых, процедура rebuild на продуктивной системе серьёзно нагружает диски, количество операций чтения/записи значительно увеличивается на уже сильно нагруженной системе. Во-вторых, при современном уровне микроэлектроники, диски выходят с конвейера похожими друг на друга как клоны; соответственно, и такой важный параметр, как время наработки на отказ (MTBF), у них практически одинаков. Таким образом, один из дисков, достигший предельного времени работы, приводит к повышенной нагрузке на всю группу, более быстрому, чем в обычных условиях, исчерпанию ресурса остальных дисков и, как следствие, повышенной вероятности отказа ещё одного диска. Этакое веерное отключение.

    Производители систем хранения борются с этим как могут. Например, IBM при заказе системы хранения поставляет диски различных производителей и различных партий, для того чтобы внести неоднородность в MTBF дисков и уменьшить вероятность одновременного отказа двух дисков в группе. Однако, концепцию data is always there это не спасает. И наряду с защитой данных in-place продолжает использоваться и резервное копирование. Что, кстати, также не обеспечивает 100% защиты данных от аппаратного сбоя…

    Держите это в уме: ваш бизнес уязвим, как и ваши данные. Абсолютная защита данных невозможна, но используя комбинированный подход к защите данных, надёжные устройств и полным резервированием систем хранения вероятность потери корпоративных данных можно минимизировать.

    Похожие публикации

    Средняя зарплата в IT

    110 450 ₽/мес.
    Средняя зарплата по всем IT-специализациям на основании 6 901 анкеты, за 2-ое пол. 2020 года Узнать свою зарплату
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 114

      +5
      На самом деле, backup решает и совсем другую проблему - восстановить файл, который был испорчен/удален, причем неделю назад. Ну и проблемы типа "в серверной был пожар" RAID не решить.
      Поэтому backup и RAID вряд ли заменят одна другую.
        0
        Да, я в курсе. Здесь намеренно упрощено.

        Для задачи типа "получить файл, который был неделю назад" сейчас применяют электронные архивы — программно-аппаратные комплексы с внутренними API (например, HP RISS или EMC Centera), в которых сохраняются все документы организации. Очень удобная штука для электронной почты. Можно получить [санкционированный] доступ к любому письму за последние, скажем, 5 лет.

        А для решения задачи "в серверной был пожар" строят территориально распределённые ЦОДы с синхронным зеркалированием систем хранения. Очень непростая задача, кстати.
          +1
          мне просто показалось, что это принципиальный момент.

          Хранить все версии файла можно и, например, с помощью возможностей файловой системы, как было еще в netware 5(или даже раньше) - причем даже в разных фолдерах разным образом - просто это увеличит требования к объемам дисков и, соответственно, общую стоимость.

          Насчет распределенных центров я тоже в курсе, просто то же самое решается ежедневным увозом ленточек с бекапом из офиса в банк, что, в общем, гораздо дешевле. Т.е. мое мнение, что это все хорошо,но RAID5+backup, даже при цене 200$ за ленточки на день, все равно самый оптимальный вариант по соотношению надежность/цена.

          Хотя, возможно, я уже отстал от жизни :)
            0
            На самом деле, это провокационные заголовок и лид.
            Статья без них вполне нормальная и не противопоставляет backup рейд-массивам.
              0
              Поверьте мне, нет. Существуют задачи, при которых недостаточно RPO по варианту "увоза ленточек раз в день в банк", а необходимо синхронное реплицирование. Одна из таких задач — банковский процессинг (работа банкоматов). Ну и стоимость таких систем естественно довольно высока. Здесь даже не вопрос "надёжность/цена", здесь требуется максимальная надёжность на имеющийся бюджет. Для SMB компаний конечно будет достаточно RAID5 (5DP) + backup. Нагрузки здесь не настолько высоки, чтобы вызывать перманентные веерные отключения, а RPO "раз в день" вполне приемлемо.

              По поводу "прошлонедельного файла" я ваше замечание понял. Сейчас ведущие вендоры активно пиарят системы архивирования и призывают различать архивирование и резервное копирование. Хотя, конечно, в этом много маркетинга, но в целом они правы — нужно различать резервирование и архивирование информации, особенно той, срок хранения которой регламентируется государственными требованиями. Хорошо, если есть бекапы того файла за прошлую неделю. А если нет? А если это уникальная финансовая отчётность? Ну и опять повторюсь, для SMB это пока неактуально — системы архивирования пока весьма дороги. Да и пользоваться лентой для архивов, имея налаженный процесс бекапа попроще.
                0
                Конечно существуют - но, похоже, мы говорим о разных областях применения. Лично я такие области не затрагивал, но верю, что с такими приложениями так оно и есть.

                Что до области применения моего "простого" решения, то я думаю, что она шире среднего бизнеса (не люблю трехбуквенные сокращения) - на мой взгляд, например, для филиала большой компании это вполне нормально.

                >Хорошо, если есть бекапы того файла за прошлую неделю. А если нет?
                это немного неправильно, правильное бекап решение - это когда известно что и за когда есть. Например - раз месяц за год назад, раз в неделю за месяц, и раз в будний день за 2 недели назад.

                Кстати, если говорить про архивирование для небольших компаний, то тут , как ни странно, проще, чем для больших структур.
                На мой взгляд, subversion с клиентом в виде встроенного в win клиента webDAV может решить много задач архивирования, да и документооборота.
                  0
                  Что до области применения моего "простого" решения, то я думаю, что она шире среднего бизнеса (не люблю трехбуквенные сокращения) - на мой взгляд, например, для филиала большой компании это вполне нормально.


                  Да, вполне. Я собствеными глазами видел решения для архивации на основе бекапа. Правда, в основном не ленту используют, а SATA.

                  >Хорошо, если есть бекапы того файла за прошлую неделю. А если нет?
                  это немного неправильно, правильное бекап решение - это когда известно что и за когда есть. Например - раз месяц за год назад, раз в неделю за месяц, и раз в будний день за 2 недели назад.


                  А файл 11-ти месячной давности сохранился? На какой ленте? Сколько инкрементальных копий нужно восстановить? Где находятся эти ленты? Для больших архивов поиск по лентам это сущий ад.

                  А идея с SVN для архивации недурна :) Нужно только как-то интегрировать аутентификацию с AD, заставить пользователей делать commit и прикрутить клиента, чтобы сами свои файлы могли доставать.

                  (Да, кстати. Документооборот к этому ну совершенно никакого отношения не имеет.)
                    0
                    >А файл 11-ти месячной давности сохранился? На какой ленте? Сколько инкрементальных копий нужно восстановить? Где находятся эти ленты? Для больших архивов поиск по лентам это сущий ад.

                    файл-то сохранится, и при правильной политике и ее реализации поиск - это не особая проблема. Но, в общем, плюсы и минусы системы вполне понятны.

                    про архивацию - если пользователей можно заставить делать commit, по и subversion уже не обязательно - CVS интегрированный с AD существует уже 5 лет (cvsnt.org), и клиенты весьма приличные ("я и сама его принимаю"). Плюс subversion в том, что к ее репозитарию можно сделать доступ по webDAV, а в windows есть встроенная реализация этого webDAV. То есть - для пользователей все прозрачно!

                    Действительно, про документооборот лучше замнем - я не говорил, что это оно, просто такая система обладает некоторыми полезными свойствами из области документооборота
          –1
          Пипец, честно признаться думал что RAID 6 защищает данные почти на 100%
            0
            Ага, это старая тема насчёт одинаковых дисков в RAID-массиве.
              0
              Ага, видел такое...в 10ом рейде рассыпался один винт, нада было ехать менять, но решили подождать пока поставщики подвезут еще пару новеньких сказей, чтоб уж заодно в другой сервер воткнуть. Как выяснилось бухгалтерия не проплатила чего-то вовремя и вместо 1го дня ждали 3. На 4ый день с утра выяснилось что на другом диске из того же юнита полезли ошибки и пиндык :)
                0
                По идее один запасной диск для массива должен лежать на полочке :)
                  0
                  По идее один запасной диск для группы уже должен быть включен в группу и находиться в режиме spare. Чтобы в случае сбоя группа быстро сделала rebuild с использованием этого диска, не дожидаясь пока диск заменят.
                    0
                    Лежащий на полочке в нерабочем положении тоже не помешает. Хотя конечно hot spare должен быть.
                    0
                    Таки он лежал, протормозили с заменой сами и через 3 дня сдох еще один :(
                0
                Ну, 100% защита невозможна в принципе из-за природы хранения данных на устройстве подверженном сбоям. А вот "почти на 100%" возможна (99%, 99.9%, 99.99% ...), причём каждая следующая "девятка" в разы удорожает стоимость системы хранения.
                +1
                Не понимаю, почему популярны RAID 5?
                С современными объёмами дисков самым нормальным должен быть RAID 10. Потому что отказоустойчивость выше и скорость работы выше.

                В 1U сервер влезает 4 диска, это как раз либо RAID 5, либо RAID 10. Берём диски по 300 гигабайт, это будет 600 гигабайт RAID 10 или 900 гигабайт RAID 5. Лишние 300 гигабайт в данной ситуации, на мой взгляд, не играют роли, зато скорость работы в 2-5 раз (зависит от контроллера) это очень хороший бонус.

                Такая большая разница получается за счёт намного более сложной обработки для RAID 5 и сильно нагружает контроллер раз и архитектуры RAID 10 два.
                  0
                  В enterprise системах обычно хранение бизнес-информации осуществляется не в сервере, а минимум — в отдельной дисковой полке с интегрированным RAID-контроллером. А чаще так и вообще в интеллектуальном хранилище, подключенном по fibre channel (однако, принципы защиты данных внутри него остаются теми же). Ну и диски соответственно, минимум — SCSI (нормальны йобъём высокоскоростных дисков 73 или 146 ГБ).
                    0
                    Это шутка юмора насчёт "обычно"? Объёмы данных сильно разные, требования сильно разные, сами проекты сильно разные. Даже в рамках одной организации решения различаются кардинально (например, для CRM/ERP и почты), не понимаю, откуда это "обычно", учитывая стоимость SAN.

                    Насчёт минимума про диски тоже непонятно, откуда дровишки - я не встречал ещё ни одного производителя без решений на SATA. Учитывая объём/скорость/надёжность современных дисков, контроллеров и бла-бла, SATA решения не проигрывают SCSI в разы по скорости и надёжности как раньше, зато, как и раньше, выигрывают в разы по цене за мегабайт.
                      0
                      Вовсе не шутка. Идея SAN как раз в том, чтобы обеспечить единообразную архитектуру хранения для центра обработки данных. При большом количестве сущностей в ЦОД (серверов, накопителей и т.д.) дороже создавать и подерживать зоопарк разнородных решений, нежели использовать унифицированный SAN. Чтобы не быть голословным: из наших клиентов только несколько (по пальцам одной руки) не используют SAN (у них SAS/DAS дисковые полки).

                      SATA по прежнему медленнее SCSI (даже с учётом NCQ) и гораздо менее надёжны при высоких нагрузках. Решения на SATA вендоры предлагают в основном для недорогих NAS систем и для замены ленточек (т.н. backup-to-disk, у EMC несколько таких есть). То есть для систем, в которые данные положили, и они там просто лежат. Во все более-менее серьёзные сервера, и уж тем более системы хранения, устанавливаются SCSI диски (сейчас есть отличные 15000rpm). Можете сами убедиться, посмотрев ассортимент HP, IBM или EMC.
                        +1
                        Насчёт SAN спорить не буду - тут перекосы в статистике обсловлены опытом. У Вас один, у меня другой. Наверняка мой к крупным бизнес-потребителям не относится.

                        Насчёт SATA/SCSI спорить не хочу, но любопытно посчитать и узнать Ваше мнение =)
                        Есть два набора дисков, один 4 SCSI, другой 4 SATA.
                        На SATA весь массив из дисков 250 Гб raid ed стоит столько же, сколько один SCSI на 146 Гб. Не думаю, что скорость или надёжность RAID 10 на SATA ниже, чем у SCSI RAID5 - диски для SATA идут специально обученные с вдвое большим (по сравнению с обычными винтами) гарантированным ресурсом; а скорость RAID10 SATA должна быть примерно равна скорости RAID5 SCSI. Если SCSI-контроллеры не проседают на RAID5 и можно из четырёх дисков собрать массив на ~500 Гб, его стоимость получается почти в пять раз выше с примерно такой же производительностью, а если проседают, то и с меньшей.

                        Что я считаю не так? Ведь при прочих равных стоимость имеет значение.
                          0
                          Напрягать мозги можно сколь угодно долго и верного ответа всё равно не получить. Для RAID6 насчитали на два порядка большую надёжность, чем для RAID5. Что на практике оказалось, мягко говоря, не так.

                          SCSI, диски разных вендоров в одной группе, RAID различного уровня, схемы бекапов и прочая — это всё best practices для хранения, выработаные годами.

                          Чтобы посмотреть правы вы или нет, нужно купить лписанные вами системы и проверить. Мой опыт подсказывает, что дешёвое решение на SATA будет и менее производительным и в несколько раз менее надёжным для системы, создающей серьёзную нагрузку на систему хранения. Чудес, увы, не бывает.
                            0
                            Чудес не бывает, но системы на Intel со всеми параметрами хуже систем на Opteron и при этом дороже - точно такая же реальность.
                            Можно это выяснять покупая новые машины, а можно узнать несколько раз в разных местах и сделать выбор на основе этих данных =)
                              0
                              Кому как. Фанату Intel всё остальное кажется фиговым.

                              Я здесь не могу ничего вам сказать, поскольку работаю преимуществено с RISC и Itanium2 системами. Домашние машины последние лет ...надцать на ADM. Даже ноуты.
                                0
                                Я не фанат железячников =)
                                Когда Intel были на коне, брал Intel, когда AMD влезли на него, перешёл на AMD, сейчас вот опять собираюсь машину брать на Intel, если Барселона АМД ничего не изменит.
                                С NVidia/ATI та ж самая песня. Материнки, правда, почему-то всегда ASUS после самой первой Tomato =)
                            0
                            А вы скорость как считаете? На разных задачах она ведь совершенно разная. Я я так понимаю что у SCSI дисков в принципе случайный доступ быстрее раза в 2 и количеством SATA вы его не перебьете.

                            А вот всякие SAN/NAS мне щас интересны и в частности думаю над организацией хранилища с доступом по iSCSI и над тем насколько оно лучше чем NFS например, так что тему почитаю :)
                              0
                              Скорость считается по KIOPS при интегральном тесте (вашего) типичного приложения. Для многих это Oracle.

                              NAS системы могут расшаривать fs по ip-сети с использованием протоколов NFS/CIFS (т.е. они выглядят как сервер с расшаренными папками/директориями). Если думаете об организации именно сети хранения данных, то для небольших контор (по бюджетам, а не по пользователям ;) хорошим решением будет iSCSI (работает на базе существующей ip-сети, дешевле fibre channel).
                                0
                                Скорость я считаю двумя путями - провожу аналогию от SATA (RAID5 имеет одни и те же подводные камни) и эмпирически, имея на руках данные по просто копированию файлов.

                                > Я я так понимаю что у SCSI дисков в принципе случайный доступ быстрее раза в 2 и количеством SATA вы его не перебьете.
                                Это в теории. На практике сильно зависит от производителя, поколения винта и контроллера. Если брать самое удачное стечение обстоятельств для обоих вариантов, то RAID10 SATA не будет медленнее RAID5 SCSI.
                                Но кроме скорости есть и надёжность - передовые технологии всё-таки внедряют сначала в SCSI, плюс цена SATA уменьшается за счёт удешевления компонет, которое, в свою очередь, ведёт к уменьшению времени работы. А ещё есть цена за мегабайт. Выбирая между ценой и надёжностью можно выбрать подходящую систему.
                                Но это тоже в теории. Я в наших серверах не видел ни одного вылетевшего SCSI и ни одного вылетевшего SATA =)
                                Поэтому склоняюсь к варианту, когда переплачивать в пять раз за третий-восьмой (по разным данным) знак после запятой в теоретической надёжности смысла нет.
                                  +1
                                  Поймите, что скорость на случайном чтении/записи напрямую зависит от RPM диска. Соответсвенно для СУБД это количество транзакций в секунду.
                                    0
                                    Это даже не теория, это муть какая-то. Ещё с IBM-овских винтов пошла тема с silence режимом работы - количество оборотов то же, а головки дёргаются менее интенсивно. Может, ещё раньше было, но у IBM я встретил это впервые.
                                    Зависимость от оборотов есть, но она нелинейная и большое влияние на нелинейность оказывает производитель. И не меньшее влияние на скорость в целом оказывает контроллер.

                                    И ещё про случайный доступ. Он, несомненно, очень важен, но СУБД не дураки пишут и стараются минимизировать эти самые случайные доступы.
                                      0
                                      Учитывайте, что с хранилищем работает не одно единственное приложение, и даже не один единственный сервер. В случае SAN это несколько десятков серверов!
                                        0
                                        Это-то понятно =) Если понадобится, буду разбираться в отдельных устройствах хранения данных, пока же такой необходимости нет. И, скорее всего, не понадобится вообще. Мы сами разрабатываем ПО и я постараюсь, чтобы устройств уровня SAN не требовалось.
                                        0
                                        конечно не линейная. но близка к тому. и контроллер тоже важен и СУБД пишут не дураки, но и СУБД не знает физических параметров хранилища, она просто делает fsync() с некой переодичностью, а для того чтобы этот fsync произошел на самом деле - надо переместить головку до нужного места.
                                          0
                                          Не надо так сильно абстрагироваться от реальности =)
                                            0
                                            как можно проще объясняю )
                                              0
                                              Gро то и говорю - нафига упрощать, если всё и так просто?
                                              Вы про кэш на контроллере слышали? "Для того чтобы этот fsync произошел на самом деле", головки перемещать не обязательно.
                                              Я о том, что Вы рассуждаете о теме, в которой ни бельмеса не понимаете.
                                                0
                                                Хорошо, уважаемый.
                                                Скажите какой тип кеша на ваших мифических контроллерах?
                                                write-through или write-back? и какая между ними разница?
                                      0
                                      >Но это тоже в теории. Я в наших серверах не видел ни одного вылетевшего SCSI и ни одного вылетевшего SATA =)

                                      вот оно, счастье :) А я вот видел и то и другое, и это меня совершенно не обрадовало.

                                      И, похоже, быстрых (15000 RPM) дисков на SATA вообще не делают.
                                  0
                                  http://www.t-platforms.ru/storage/san/58…
                                  Это не HP, но свои решения они предлагают и так и так. Неужели решение на SATA является дешёвкой и они обманывают людей? ;)
                                    0
                                    Это high performance fibre channel решение. Вы знаете сколько стоит FC-диск? Это вам не дешёвый SCSI :)

                                    Что касается возможности установки SATA дисков в FC-полку (у HP это называется FATA), то нужны они сами понимаете для чего. И ни о какой производительности в 575KIOPS в таком случае и речи быть не может. Если посмотрите внимательней на ТТХ, то при описании производительности стоят магические буковки "FC".
                                      0
                                      Магические буквы видел =) Это нормально =)
                                      Просто, видимо, жаба душит за чуть большую производительность и чуть большую надёжность платить в пять-десять раз больше. Было бы оно хотя бы в два раза выше...
                                      Хорошо ещё, что сейчас стоит проблема выбора только между SATA и SCSI в сервер =)
                                        0
                                        Не чуть. Лишние "единички" в KIOPS, лишняя "девятка" в надёжности — для кого-то это очень важные вещи. А для обеспечения этих "единичек" и "девяток" инженеры вендоров проводят большую работу. Это обывателю кажется что "чуть", на самом деле, если цена надёжности решений уровня 99.99% и уровня 99.999% отличается в разы, то это в большей степени объективно оправдано. Более того, есть задачи для которых надёжность 99.99% не применима (кажется, я уже повторяюсь) и потому там мерило "цена/надёжность" не подходит.

                                        Хорошо ещё, что сейчас стоит проблема выбора только между SATA и SCSI в сервер =)

                                        Если вам нравится "железо", то наверное плохо. Поковыряться и разобраться в работе системы, похожей по классу на ту, из линка, это очень увлекательно! Это же не просто шкаф набитый дисками, у неё есть собственные контроллеры, ОС, управляющие сервера и специальный софт. Это же "интеллектуальное" хранилище, а не тупой bunch of disks.
                                          0
                                          Не чуть

                                          Чуть, чуть =)
                                          Вы сами пример про RAID6 приводили. Мне абсолютно без разницы, сломается диск с надёжностью 99,99 или 99,999. Поэтому способы увеличения количества девяток до приемлемого уровня ищу другие. Просто купить железку и радоваться заявленным цифиркам не наш метод =)
                                          Другое дело, что слишком мало ПО позволяет использовать альтернативные пути увеличения количества девяток.
                                          Любопытно, кто-нибудь предлагает решения с четырмя девятками после запятой под SLA? =)
                                            0
                                            HP. Но вам они будут не по карману.
                                              0
                                              Спасибо, что посчитали наши деньги =)
                                          0

                                          Хорошо ещё, что сейчас стоит проблема выбора только между SATA и SCSI в сервер =)

                                          А где магическое слово SAS ? =)
                                            0
                                            Я не интересовался ценами, но есть уверенность, что это фигня =) Когда будет недостаточно винтов в машине, следующим шагом будет SAN.
                                              0
                                              А причем тут SAN? :) SAS это следующий виток развития SCSI. Меня там заинтересовала возможность устрановки или SAS или SATA винтов без смены контроллера и шасси. Надо быстрые диски? Ставим SAS. Надо большие объемы и критична стоимость ставим SATA.
                                                0
                                                Я думал, что SAS это тоже внешний девайс.
                                                Их наплодили десять куч, заниматься разбором всех аббревиатур лениво =)
                                                Когда придёт время, проведём тестирование насчёт дисковых систем для 1U машин. Надеюсь, четырёхядерные процессоры перестанут стоить как самолёты к этому времени =)
                                                Правда, толку от этого для окружающих немного - тестироваться будет PostgreSQL на Windows.
                                                  0
                                                  Ну в 1U при помощи использования SAS и 2.5 винтов умудрились упихать RAID5 :)
                                                    0
                                                    В 1U помещается 2 процессора и 4 обычных винта.
                                                    RAID5 отстой =)
                                                      0
                                                      С 2.5" помещается 6 винтов.
                                    0
                                    Видимо, основная проблема в том, что область применения в статье не указана.
                                    Есть области, в которых есть смысл делать распределенные центры обработки данных, а есть в которых нет смысла отделять сервер от компьютера секретарши (хм, хотя, может, именно таких уже и нет)

                                    Например, в одной из областей, с которой я знаком [решение для средних размеров филиала глобальной корпорации -500 юзеров] - SATA до сих пор не актуально, так как 15000RPM hot-plug SATA решение, даже если и существует, стоит не сильно дешевле того же на SCSI.

                                    В другой знакомой мне области, наоборот, эффективнее сделать просто софтовый/полусофтовый SATA RAID и бекап дополнительным диском SATA же.
                                      0
                                      В голове крупных бизнес-потребителей ИТ произошло наконец-то смещение акцента с бизнес-приложений на данные, обрабатываемые этими приложениями.


                                      И дело не в количестве пользователей, а в специфике задач и размерах бюджета на ИТ — вот что значит "крупный". Для специалиста в области хранения данных рекомендовать строить систему на SATA для задач, скажем, банковского процессинга, равносильно признанию собственного непрофессионализма.
                                        0
                                        Такое определение слова "крупный" - неочевидно - для него надо быть на стороне продающего решения, а не покупающего их.
                                        Т.е. с моей точки зрения крупный - это в первую очередь много ползователей, а бюджет у него - разумный.

                                        Но, в общем, это уже разговор не по делу.

                                        А с точки зрения специальных приложений я вполне могу представить себе систему, где избыточны не диски, а сервера - и тогда диски могут быть SATA, а сами сервера - самыми дешевыми на рынке 1U
                                          0
                                          Крупный потребитель — это тот кто много потребляет. Тут уж ка кни крути, не в количестве пользователей дело.

                                          Про избыточные сервера (high availability / failover clusters) я возможно расскажу в следующий раз. Там тоже не всё гладко.
                                          0
                                          > Для специалиста в области хранения данных рекомендовать строить систему на SATA для задач, скажем, банковского процессинга, равносильно признанию собственного непрофессионализма.

                                          Есть подозрение, что это исключительно из-за цены вопроса =) Чем дороже, тем лучше.
                                            0
                                            Есть подозрение, что это из-за инстинкта самосохранения ;)
                                  0
                                  Для домашнего пользователя обычно RAID 5 не очень доступен т.к. надо как минимум 4 диска.
                                  Думаю дома идеален RAID 1 (два диска) + частые бекапы созданных пользователем данных (документы, исходники прог и т.п.) + периодические всякого фуфла типа музыки (её можно скачать повторно) и редкие системы т.к. систему можно и переставить.

                                  А так главная проблема это конечно бабло. Если оно есть то и данные никуда не теряются, а если нет то тут как повезёт :)
                                    0
                                    Любопытно, куда можно бэкапить 500 гигабайт с домашней машины? ;) И какая должна быть частота =)
                                      0
                                      Для домашней машины интересная задача. У меня сейчас тоже этот вопрос назрел. Я решил для себя, что бекапить фильмы и музыку необязательно. Главное — это система (около 7 ГБ) и личные данные (около 4 ГБ). Если вы пользуетесь linux/*bsd, то можете аккуратно нарезать одинаковые партиции на разных винта и слепить из них программный RAID (0/1/5).

                                      Кстати, для RAID5 достаточно 3-х разделов на разных физических дисках.
                                        0
                                        У меня уже есть решение для музыки/видео/архивов - они скопированы на работу путём приноса туда винтов =)
                                        Но это решение очень уж неуниверсальное. Недорогого решения не вижу, наверное самым простым вариантом будет купить ещё два винта (текущая конфигурация это RAID 0) и запустить RAID 10 или второй RAID 0 и туда писать вручную.
                                        Покупать я их сейчас не буду, зато буду через пол года покупать новую машину. Вот и думаю насчёт одной партии винтов - а не взять ли винты в разное время или от разных производителей?
                                          0
                                          В домашнюю я взял диски WD и Hitachi разных партий. Полное зеркало не рекомендую делать — только для важных изменяющихся данных. Для данных, которые просто лежат и иногда используются, лучше сделать резервные копии (на другой диск, например). Данные, которые просто лежат, можно либо забекапить на WORM (CD-R, DVD-R) либо не бекапить. Кино с музыкой в случае чего можно и из сети скачать :) Главное предварительно всем раздать ;)
                                            0
                                            Данные, которые просто лежат, на DVD записывать слишком долго, плюс иметь головную боль с обновлением бэкапа.

                                            Пришло в голову ещё одно решение. Для таких данных завести просто винт и купить ещё внешнюю коробку USB2.0 и/или FireWire, куда синхронизировать обновления. А работать продолжать на RAID 1, правда куда девать столько места, непонятно =) Разве что под кино отдать, кино нестрашно потерять.

                                            Получаем, что на винты затраты будут чуть выше из-за коробки (количество винтов остаётся 4), головной боли с DVD нет, и, один из главных для домашней машины моментов - работать будут только два винта, так как третий в системнике будет спать обычно, а четвёртый из коробки будет подключаться раз в пол года.
                                          0
                                          Ну я, например, просто на NAS rsync'ом все данные "/Users" копирую.
                                          0
                                          Можно на плёнку, но я пока не изучал этот вопрос поэтому сколько стоит и насколько оправданно не знаю.
                                          0
                                          Я бы не сказал, что это вопрос лишь денег. Для домашней машины ещё куча факторов появляется — мои 6 дисков очень шумели, например :)

                                          Для RAID5, кстати, достаточно 3-х дисков.
                                          –1
                                          Мне кажется, что выбор backup, скажем так, скорее психологический, нежели технологический.

                                          Т.е. создание бэкапа подразумевает некоторые действия, за которые можно отчитаться - принудительно скинул данные на диск (ленту), убрал в сейф, расписался в журнале, спокоен. Дисковые массивы с избыточностью таких же действий не требуют. Поэтому для человека не понятно, кто и за что отвечает и кто будет виноват.

                                          Кроме того, опять же психологически может "давить" то, что дисковые массивы постоянно находятся в работе и поэтому кажется более логичным использовать переодически задействуемые средства хранения: ленты, диски. "Меньше работают - меньше ломаются!" Естественно, если основные данные не меняются (добавляются) непрерывно.

                                          Получается, что "слабым звеном" в выборе систем хранения данных может оказаться человек с догмами. Если этот человек принимает принципиальное решение, то и систему надо предлагать такую, которая устроит и его и вас.
                                            0
                                            Могу вас заверить, что с людьми, принимающими решения в области ИТ для крупных кастомеров (CIO и т.п.), ведётся постоянная просветительская работа со стороны вендоров. Так что эти люди "в теме".

                                            А с бекапом сейчас назревает довольно пикантная ситуация. Дело в том, что объёмы данных растут быстрее, чем скорость их передачи (в глобальном смысле). Это приводит к тому, что backup window "растягивается". То есть, за время пока происходит бекап, в системе накапливается значительный объём новых данных, которые снова нужно бекапить. А в некоторых случаях и некоторых специфических задачах (предсказание погоды, например) данные накапливаются быстрее, чем происходит бекап. Вот такая забавная штука.
                                              0
                                              Для крупных кастомеров согласен - вопросов нет.
                                              А для мелких.. оставим в стороне погоду и прочую "жесть", и приземлимся до уровня случаев, где данные меняются в течении рабочего дня: документы, базы и т.д.
                                              Тут "психологизм" и вылезет - будут скидывать документы руками на флешки, писать на болванки, скидывать на хард в рэке (в конце дня вынимаемый и убираемый в несгораемый сейф). Еще немаловажна стоимость нормального решения резервного копирования и хранения данных для мелких случаев. Где вендоры, предлагающие дешевые решения?
                                                0
                                                Хм ну как вариант D2D (собственено бекап на HDD и ныканье его в сейф).
                                                  0
                                                  Да я это и упомянул - в смысле хард в рэке и в сейф. Но всеравно это не идеальные решения, т.к. высокая вероятность потери данных на бэкапе: качество болванок упало, флешкам верить нельзя да и ремонтировать их дорого. С хардами в рэках тоже вопросов достаточно. И стоимость вытаскивания данных при аппаратном сбое м.б. высокой.

                                                  Интереснее было бы решение с внешним кейсом на 2 HDD с аппаратным RAID внутри, но таких предложений не очень то и много.

                                                  Кстати, а как организовано резервное копирование в 1С и сотоварищах? Вот уж где поле непаханное для внедрения по разным конторам...
                                                    0

                                                    Интереснее было бы решение с внешним кейсом на 2 HDD с аппаратным RAID внутри, но таких предложений не очень то и много.

                                                    Такое решение собирается на коленке за день. Для этого надо материнскую плату MiniATX или еще лучше MiniITX. Далее нужен будет переходник для CF и сам CF для загрузки системы, гигабитная сетевая карта + 2 HDD в RAID1. Далее просто используем iSCSI. Штатные подобные решения тоже существуют. Вы что не видели внешних массивов с поддержкой RAID 10 и RAID 5 для офисов?
                                                      0
                                                      Видел... Но я говорю о совсем дешевых (простых) решениях, которые и собирать то некому :)
                                                        0
                                                        Дешево это сколько 100-200$ без дисков ?
                                                          0
                                                          Угу ... практика экономии на всем - распространенное явление :)
                                                            0
                                                            В таком случае купите два USB диска и не мучайтесь. За 100-200 долларов вы хорошего решения не получите.
                                                              0
                                                              Это не мне :)
                                                              Я к тому что между хорошим решением и бэкапом люди выбирают первое, потому что ограничены в средствах и никто им не может объяснить преимущества более дорогих решений и обосновать их стоимость.
                                                              Вот для решений мелких офисов какая нормальная стоимость? $400?
                                                                +1
                                                                Большая часть NAS серверов ориентировано, на постоянную работу. В связи с чем пустая коробка будет стоить от 400-600 баксов. Считайте туда входит блок питания, корпус, специазированная плата (для встраиваемых решений) и ПО. Вот и набегает. Кстати есть еще интересная мысль. 2 eSATA порта и два таких диска. Строите на них RAID далее после синхронизации отключаете :)
                                                                  0
                                                                  Вот и готовое решение с обоснованием :)
                                                                  Так что варианты относительно дешевых систем надежного хранения вполне существуют. Дело за внедрением у мелких и домашних :)
                                                  0
                                                  Психология "мелких" обычно заставляет их экономить даже на ленточных бекапах и втором диске для зеркалирования системы своего основного сервера (я подозреваю, что до сих пор кое-кто совмещает компьютер секретарши и сервер "в одном флаконе", как заметил посмотреть профиль centrist). Обычно всё это происходит до первого сербёзного сбоя и осознания того, что из-за прижимистости компания потеряла существенный доход.

                                                  А вендоров, предлагающих дешёвые решения, действительно практически нет.
                                                    0
                                                    В случае "совмешения" сервера и рабочей станции.. тут лучик света есть, т.к. на совеременных матерях иногда добавляют RAID контроллер, и возможно установить 2 HDD. Для других же теоретически можно сделать средствами XP (программно), но системный диск не зеркалируется, и надо +2 HDD к системному, что еще более не убедительно.
                                                      0
                                                      Software RAID спасёт. Не знаю как на WinXP, а в Linux можно сделать RAID на партициях. Т.е. для зеркалирования достаточно 2-х дисков. Да и "системный раздел" тоже можно зазеркалить.
                                                        0
                                                        Боюсь не скоро "компьютер секретарши-сервер" будет работать под Linux...
                                                          0
                                                          Будь я аникейщиком, именно в такой организации я бы линукс и поставил. Вообще, по моему мнению, именно секретарш/customer support можно перевести на линукс вообще без каких-либо проблем.
                                                            0
                                                            Вы серьёзно? Интересно!
                                                              +1
                                                              вполне серьезно. В какой-то момент я понял, что в "корпоративном окружении" 90% пользователей, вообще-то, не почувствуют разницы, если на их компьютере win заменить на линукс. 5% чем то интересуются, ставят icq(или пытаются ставить - в зависимости от политики IT), а других 5% перемещение иконки на 5 пикселов приводит в ступор - обеим этим категориям переходить сложнее. А вот остальным достаточно объявить, что иконка ворда будет выглядеть по другому и, в общем, все.
                                                                0
                                                                А насколько ваша выборка репрезентативна? Какого класса эти компании, каковы их области деятельности?
                                                                  0
                                                                  Я могу судить только по местам где я работал или, в меньшей степени, где работали мои знакомые - несколько ТНК и несколько мелких фирмочек.
                                                                  Главное наблюдение тут не в том, как выглядит корпоративное окружение, а в области психологии. Почему-то считается, что переход на линукс плох именно тем, что надо обучать пользователей - но я пришел к выводу что те самые 90% вообще не заметят разницы.
                                                        0
                                                        В Win 2003 , во всяком случае, системный раздел зеркалируется без проблем.

                                                        Вообще я тут пришел к выводу, что никакой пользы от RAID на материнской плате нет. Дело в том, что пытаясь запустить такой RAID под линукс, я наткнулся на мнение, что все равно все алгоритмы, что там есть, работают на CPU. И в этом случае по скорости работы преимуществ перед софтовым RAID никакой. Загрузка с софтового вполне возможна. А возможностей по мониторингу в софтовом RAID побольше будет. И главное - можно повесить винты на разные контроллеры, что , нас самом деле, большой плюс к надежности. Опять же, тупые hw RAID не позволяют зеркалировать раздел.
                                                          0
                                                          Ну не совсем. Там есть некоторое количество операций, что выполняются контроллером. Но к сожалению аппаратного XOR движка там обычно нет.
                                                            0
                                                            ну я тоже так думал, и был удивлен увидев противоположное мнение. Информации , где просто и понятно было бы описано, что конкретно делают эти аппаратные контролеры, я не нашел (может, плохо искал). Rebuild в фоновом режиме они не делают, как я понимаю, в отличие от софтового. Но, в общем, за что купил, за то и продаю
                                                            0
                                                            В W2k3 - да, в WiXP Prof системный можно только с бубном и хаком. Не системный - стандартными средствами.
                                                            Как-то мне софтовые решения кажутся менее надежными, особенно в таком важном деле как сохранность данных.
                                                              0
                                                              по-моему, в результате выходит, что наоборот.

                                                              Конечно, один раз я сильно обломался с тем, что WinNT не смог поднять свои же RAID5 разделы - но с тех пор много воды утекло, и больше проблем с софтовыми разделами я не видел.
                                                      0
                                                      Хм а слепки не спасают? Ну и Disk to Disk решения? Или все упрается в то что частота снятия слепков и объемы слепков настолько кореллируют что слепок просто не успевает упасть в Backup до снятия нового слепка?
                                                        0
                                                        Именно так.

                                                        Кстати, вы правы в том, что backup-to-disk всё больше используется. Хотя особого прироста в скорости бекапа это не даёт. Здесь основную роль играет пропускная способность каналов передачи (SCSI, Ethernet, FC).
                                                          0
                                                          Да, в общем приличных дешевых NAS нет, а использовать USB хранилище для переодического скидывания для 2 человек уже не годится.
                                                            0
                                                            Поищите, сейчас появились недорогие NAS как раз для малого бизнеса. Не знаю правда, насколько они "приличны" при своей цене.
                                                              0
                                                              Ну по сравнению с их собратьями для среднего и крупного бизнеса цены там приличные :)
                                                            0
                                                            По сравнению с лентами у backup-to-disk имеется прирост скорости в случайном доступе.
                                                              0
                                                              Подумайте при какой операции используется случайный доступ и вы поймёте, почему скорость бекапа значимо не отличается.
                                                                0
                                                                Чаще всего достать какие-либо конкретные данные на диске. Хм в целом можно и ленту помотать. Если же скорость доступа критична... то о каком доставании из бекапа может идти речь :) Если не в скорости дело, то в чем? В унификации блоков чтоли ?
                                                                  0
                                                                  Есть такие страшные слова как "консолидация", "виртуализация хранения", "жизненный цикл информации". Посмотрите на сайтах вендоров как выглядят backup-to-disk системы и их ТТХ.

                                                                  Системы backup-to-disk используются в основном для бекапа. Причём бекапа централизованного, со многих серверов одновременно. А для того, чтобы доставать конкретные данные существуют совсем иные решения — контентно-адресуемые системы.
                                                                    0
                                                                    гляну, гляну.
                                                      0
                                                      ок.
                                                      Думаю что ситуация следующая - для крупных кастомеров вендоры вполне способны решения с + и -.

                                                      Мелкие и очень мелкие кастомеры выбирают решения которые им понятны и устраивают по цене. Вполне возможно, что они просто не знают про другие решения или им никто должным образом не объяснил преимущества систем надежного хранения по сравнению с обычным бэкапом "на дискетку". И некто не развеял их "психологические" догмы. У них вполне возможно нет обслуживания техники. Ну придет мальчик Вася, переставит систему и поменяет картридж. А предлагающих решения на более серьезном уровне для оч. мелких нет - потому что вылезает масса вопросов. Хотя можно создать гораздо более надежные решения при умеренной стоимости и для них.

                                                      Для средних - там могут процветать наколеночные решения, т.к. денег тоже жалко, а подросший Вася сделает все "как надо". Ему + и - тоже никто не объясняет и не убедит уговорить начальство купить то, что нужно.
                                                        +3
                                                        Цитируя Игоря Николаева: "RAID - это средство для борьбы с тараканами в голове".

                                                        1. Использование уровней raid выше первого - безумие.
                                                        Если используются что-либо сложнее зеркала, то данные хранятся в собственном недокументированном формате фирмы изготовителя raid контроллера. И вам ни за что не восстановить данные в случае выгорания контроллера без его замены.
                                                        А стоимость замены хорошего контроллера, это стоимость авиаперелета до Лондона и обратно. Но и после этого можно получить сюрприз в виде чуть-чуть другой аппаратной ревизии, несовментимость форматов данных при разных версиях firmware.
                                                        В случае raid 1 при попытке почитать половинку на обычном контроллере можно тоже получить смещение начала ваших данных на пару секторов, хоть это и неприятно, но не фатально.

                                                        2. Использование raid без резервного копирования - верный способ потерять ваши данные.
                                                        Практически при любом использовании дискового хранилища, всегда есть сектора которые после записи в них не читаются потом по пол года. Даже если вы иногда делаете полное резервное копирование, пустые сектора все равно не читаются.
                                                        Теперь представте что у вас есть raid 5 из пяти дисков, один из которых вдруг подох. Вы радостно подключаете новый и запускаете процедуру rebuild (или, что хуже, она начинается автоматически). Тут начинается волшебное действо. Для восстановления raid-а читаются все данные со всех оставшихся дисков. И вдруг выясняется что за прошедшие полгода один сектор на одном из оставшихся дисков почему-то тоже попортился.
                                                        Все. На этом raid завершает свою работу. Система умерла. Если вы использовали raid 5 все данные умерли тоже. При raid 1 наверно вы сможете их восстановить, просто наплевав на сбойные сектора. Да и вероятность появления ошибки за полгода для четырех дисков выше чем для одного. Самое обидное, что если бы не rebuild, все бы работало еще какое-то время.
                                                        А так, если у вас не резервной копии или она неактуальная месячной давности, вы по уши в дерьме. Но если вы умны, в другой раз вы не будете слушать сказки системных интеграторов.

                                                        3. Про тех, кто покоцал свои суперважные файлы три минуты или три месяца назад я даже рассказывать ничего не буду.

                                                        4. Система в режиме деградации и восстановления почти всегда не выдерживает нагрузки.
                                                        Если система хорошо нагружена, то при деградации в случае отказа одного из компонентов ее производительность заметно ухудшается. Перестроение же массива на нагруженой системе почти всегда приводит к отказу в обслуживании для сервиса, который использует эту дисковую систему. Как правило 10-и минут наблюдения за мучениями оказывается достаточно, что бы проявить милосердие и отключить уже и так не работающий сервис и дать дискам скорее завершить восстановление.
                                                        Кстати не могу понять почему практически нет реализаций raid 1 где бы одновременно использовалось три компонента.

                                                        З.Ы. Гугл вообще не использует raid. У них распределенное хранилище с тройным резервированием. Причем все компоненты на которых хранится отдельный блок данных (64M) разнесены географически. А для каждого блока наборы из этих 3-х компонентов не совпадают.
                                                          –1
                                                          3. Про тех, кто покоцал свои суперважные файлы три минуты или три месяца назад я даже рассказывать ничего не буду.

                                                          На домашнем компьютере можно использовать Google Desktop + плагин ревизий. Таким образом можно восстановить хотя бы суть текстовых файлов за довольно значительный период и при этом восстановить разные версии.
                                                            –1
                                                            DVD-резак и пачка болванок стоят немного, да и думать особо не надо - записал, сунул в шкаф, забыл.

                                                            При частом изменении файлов имхо лучше всего поставить VCS, но оригинальный каталог бэкапить почаще тоже (а не бэкапить хранилище CVSNT или что Вы там выбрали для этого дела).

                                                            А для больших "суперважных" файлов я и не знаю, что может быть удобнее бэкапа на DVD (если поместятся, конечно).
                                                              0
                                                              Посмотрел цены на стриммеры... 500 гиговый диск + коробка к нему будут стоить дешевле.
                                                                0
                                                                DVD где угодно прочесть можно, это иногда немаловажно.
                                                                  0
                                                                  Диск в моём ответе = НЖМД
                                                                  Коробка если она с USB то тоже может где угодно прочитаться, кроме случаев с фильмами и фото.
                                                                    0
                                                                    Я почему так упорствую против DVD. Дело в том, что когда создание резервных копий это не ваша работа то наверняка вы будете не всегда заставлять себя вставлять диск и нажимать на кнопку (она должна быть одна). Поэтому лучше когда бекап делается "сам". Например, комп проснулся часов в пять утра и ловко сделал все свои дела: бекап, скандиск, дефрагментация, проверка антивирусом всех новых файлов и т.п.
                                                                      0
                                                                      Я соглашусь что начиная с определенного объема данных DVD становится неудобным из-за размера. Когда и если у меня будет такая проблема, я куплю несколько внешних USB-накопителей, но не буду втыкать везде стримеры :) Да и к лентам предубеждение имею.

                                                                      Копирование же можно автоматизировать. Я сейчас вообще в качестве средства для хранения бэкапа (и переноски оного) 4GB флэшку использую, но все же DVD подешевле...
                                                              0
                                                              Спасибо за интересный комментарий. Позволю себе не согласиться с некоторыми утверждениями.

                                                              Использование уровней raid выше первого - безумие. Если используются что-либо сложнее зеркала, то данные хранятся в собственном недокументированном формате фирмы изготовителя raid контроллера. И вам ни за что не восстановить данные в случае выгорания контроллера без его замены.
                                                              А стоимость замены хорошего контроллера, это стоимость авиаперелета до Лондона и обратно. Но и после этого можно получить сюрприз в виде чуть-чуть другой аппаратной ревизии, несовментимость форматов данных при разных версиях firmware.

                                                              Во-первых, система, которая хранит/обрабатывает критичные для бизнеса данные не должна содержать единой точки отказа. Это означает, что RAID-контроллеры, как правило, продублированы. Во-вторых, если контроллер отказывает во время гарантийного срока, то вендор заменяет его за свой счёт. Так что можете слетать в Лондон и обратно на сэкономленные деньги. В-третьих, в системе хранения используются компоненты одного вендора, а они тщательно тестируются на совместиность. Если используется мультивендорное решение, то тут действительно есть проблема несовместимости. Но использовать компоненты нескольких производителей в системе хранения — это искать приключений на свою сами-знаете-что. В-четвёртых, если вы так боитесь не совместимости, то используйте software RAID. На уровне LVM зеркалирование работает весьма хорошо, а риска потери данных из-за несовместимости практически нет (при условии использования одной ОС, естественно).

                                                              Практически при любом использовании дискового хранилища, всегда есть сектора которые после записи в них не читаются потом по пол года. Даже если вы иногда делаете полное резервное копирование, пустые сектора все равно не читаются.

                                                              Если вы делаете резервное копирование, то читаются все сектора. И коды коррекции тоже читаются и даже проверяются. Здесь есть другая опасность: данные могут "испортиться" пока они просто хранятся на диске и никто этого не заметит, пока не попробует эти данные получить. С этим вендоры тоже борятся. Например, у EMC сектор равен 520 байтам, дополнительные 8 байт отданы под расширенный ECC. Кроме того, на "интеллектуальных" хранилищах в фоновом режиме работает специальный процесс, который читает все сектора. И в случае, если сектор читается плохо (не с первой попытки), переносит данные в другой, более надёжный сектор.

                                                              Про тех, кто покоцал свои суперважные файлы три минуты или три месяца назад я даже рассказывать ничего не буду.

                                                              И не надо. Я уже неоднократно говорил, что это не задача RAID, и не задача бекапа.

                                                              Система в режиме деградации и восстановления почти всегда не выдерживает нагрузки.
                                                              Если система хорошо нагружена, то при деградации в случае отказа одного из компонентов ее производительность заметно ухудшается. Перестроение же массива на нагруженой системе почти всегда приводит к отказу в обслуживании для сервиса, который использует эту дисковую систему. Как правило 10-и минут наблюдения за мучениями оказывается достаточно, что бы проявить милосердие и отключить уже и так не работающий сервис и дать дискам скорее завершить восстановление.

                                                              Да. Тут ничего не могу возразить. Rebuild серьёзно просаживает систему. Однако, с этим тоже пытаются бороться (не могу сказать, что очень успешно). Один из таких способов — виртуализация на уровне дискового хранения. Т.е. в RAID-группы объединяются не сами диски, а находящиеся на них chunk. Такой подход применяет, например HP.

                                                              Кстати не могу понять почему практически нет реализаций raid 1 где бы одновременно использовалось три компонента.

                                                              Такие реализации есть, но я пока ещё не видел ниодного кастомера, который бы это использовал. Причина — высокая избыточность и, как следствие, цена. На дабл мирроре избыточность 200%, на типичном рейде — менее 20%. А если объём данных велик? При переводе в деньги (при цене высокопроизводительного диска более 1K$) это удручает.

                                                              З.Ы. Гугл вообще не использует raid. У них распределенное хранилище с тройным резервированием. Причем все компоненты на которых хранится отдельный блок данных (64M) разнесены географически. А для каждого блока наборы из этих 3-х компонентов не совпадают.

                                                              Не забывайте, что Google это компания с почти 100 миллиардной капиталлизацией, основу бизнеса которой составляет их информационная система. У них много оригинальных подходов, которые вряд ли можно советовать "обычным" компаниям. Например, сервера поисковой машины заменяются целиком в случае неисправности. Они посчитали, что так для них дешевле. То же самое и в double mirroring. Кстати, обратите внимание, они используют chunk для зеркалирования. То, о чём я говорил выше.

                                                            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                            Самое читаемое