От данных — к информации

    В последнее время в специализированной прессе все чаще появляется «загадочная» аббревиатура ILM – Information Lifecycle Management. Ведущие разработчики один за другим предлагают решения для той или иной части ILM, красиво расписывая общую схему хранения данных в реорганизованном соответствующим образом датацентре. Однако ясного понимания, что же такое ILM, у российских заказчиков, на наш взгляд, пока не сложилось.

    Первое, что стоит отметить: ILM – не панацея, не технология, не решение и не руководство к действию. Это концепция, отражающая современный взгляд на корпоративные данные; набор практик управления, нацеленных на достижение оптимального соотношения ценности информации для бизнеса и стоимости инфраструктуры её хранения.

    ILM, согласно SNIA (Storage Networking Industry Association, www.snia.org), это политики, процессы, практики, сервисы и инструменты, используемые для того, чтобы соотнести ценность информации с точки зрения бизнеса с наиболее подходящей и эффективной по стоимости инфраструктурой, начиная с момента создания информации и заканчивая ее размещением. Информация сопоставляется с бизнес-требованиями через политики управления и уровни предоставления сервиса, связанные с приложениями, данными и метаданными.

    Говоря проще, это концепция автоматического размещения данных в инфраструктуре датацентра на основании требований бизнеса к параметрам защищенности, доступности информации и с учетом ее ценности для бизнеса, актуальности и минимизации расходов на хранение. Какие же проблемы хранения помогает решить ILM?

    Не захлебнуться в океане данных

    Ни для кого не секрет, что объем корпоративной информации с каждым годом увеличивается, и очень серьезно. В соответствии с отчетами IDC рост объемов хранимых и обрабатываемых данных составляет более 70% в год. В среднестатистической современной компании три тысячи сотрудников ежедневно передают по электронной почте терабайт данных. Всего в мире, по подсчётам Gartner, в 2005 году отправлялось 36 миллиардов электронных сообщений в день — в три раза больше, чем в 2001-м. В некоторых специфичных отраслях, например в медицине, наблюдается экспоненциальный рост информационных объёмов.

    Ситуация осложняется требованиями нормативных актов и внутрикорпоративныхстандартов, предписывающих длительное хранение некоторых видов информации — иногда в течение 5--10 лет. А это значит, что компания, имеющая корпоративные данные скромного объема в 1 Тбайт и показывающая рост этих объёмов 60% в год (не самый большой по современным меркам), через 10 лет будет хранить уже 110 Тбайт информации. Увеличение более чем в 100 раз!

    Проблема взрывного роста объемов данных тесно связана с другой проблемой: постоянно усложняются процессы управления распределенной инфраструктурой датацентров. Современный центр обработки данных состоит из тысяч взаимодействующих компонентов – серверов, элементов систем хранения (логических единиц, дисков, контроллеров, управляющих серверов, ленточных накопителей и т. д.), элементов сетей хранения и локальных сетей (маршрутизаторов, хост-контроллеров, адаптеров и пр.). Для управления сложной инфраструктурой применяются специальные инструменты, причём для каждого вида инфраструктурных элементов — свои. И чем больше в датацентре разнородных компонентов, тем больше инструментов управления вы вынуждены использовать. Что ещё больше увеличивает сложность системы.

    Кроме того, использование специализированных инструментов управления инфраструктурой не решает основной задачи – управлять лавинообразно растущим потоком данных. Компании продолжают хранить информацию в дорогих высокопроизводительных системах и, несмотря на снижение стоимости оборудования, с каждым годом расходуют всё больше средств на её хранение. Процесс резервного копирования становится всё сложнее и требует больше и больше времени. При этом существующие инструменты управления не автоматизируют в достаточной степени процессы размещения информации – администраторы фактически вручную выделяют место для ее хранения, задают привязку к необходимым серверам, создают расписание резервного копирования, определяют источники и места назначения.

    Сложившуюся ситуацию в области хранения данных можно охарактеризовать следующим образом: объем данных катастрофически растет, а имеющиеся инструменты управления не в силах с этим справиться.

    Нужны ли бизнесу все сохраняемые в системах данные?

    Возвращаясь к примеру компании, за 10 лет увеличившей объём корпоративной информации в 100 раз, зададимся вопросом: так ли необходимы её бизнесу эти 110 Тбайт данных, размещенных в оперативных хранилищах?

    Очевидно, что нет. С течением времени меняется как ценность данных, так и требования к их доступности и защищенности. Так, ценность финансовой транзакции максимальна в течение первого месяца и впоследствии неуклонно снижается. Кроме того, финансовая запись в ERP-системе компании и, скажем, личное письмо сотрудника имеют разную ценность для бизнеса уже в момент создания.

    Между тем в оперативных высокопроизводительных хранилищах датацентра располагаются все данные, включая устаревшие и ненужные, в то время как храниться там должны только те, к которым предъявляются высокие требования доступности.

    Анализ, проведенный Enterprise Storage Group, показывает, каким образом ценность информации для бизнеса изменяется с течением времени в зависимости от ее типа.



    Мы можем сделать важный вывод: разные классы информации имеют разную ценность для бизнеса, и эта ценность меняется с течением времени.

    Следующее важное свойство корпоративных данных – их состояние. Создаваемые данные сохраняются в датацентре для последующей обработки и затем в зависимости от решаемых бизнесом задач изменяются. Пока данные изменяются, они находятся в активном состоянии и называются оперативными. Но с течением времени наступает момент, когда данные «закрепляются» и более изменениям не подвергаются. Они могут использоваться для генерации новых документов, сводных отчетов и т. п. Такие данные называют ссылочными. Естественный способ хранения ссылочных данных – архив.

    В современных датацентрах обычно оперативные и ссылочные данные размещаются вместе, в одних и тех же хранилищах, что не только увеличивает стоимость хранения, но и создает трудности с соблюдением нормативных актов, регламентирующих хранение определенных видов информации.

    Наконец, есть еще одно состояние – устаревшие данные, которые нигде более не используются, а срок их хранения, регламентируемый нормативными актами, истек. Такие данные больше не нужны бизнесу, их ценность нулевая, и они могут быть удалены. В настоящее время устаревшие данные отслеживаются практически вручную, их удаление из системы представляет собой кошмар для администратора, а хранение – пустую трату денег.

    Вперед и вверх!

    Описывая текущую ситуацию с хранением данных, мы намеренно не акцентировали внимания на различии между данными и информацией. Точно так же эти различия не учитываются в сложившейся сегодня практике организации процессов и инфраструктуры хранения. Однако именно этот аспект – один из важнейших в концепции ILM: данные ≠ информация

    Данные – это просто набор байтов, способ отражения бизнес-информации в инфраструктуре хранения. С такой точки зрения все они представляют одинаковую ценность, поскольку их семантика не определена, а значение здесь имеют такие параметры, как надежность хранения, защищенность и доступность. Именно этими характеристиками оперируют современные системы хранения данных и инструменты управления инфраструктурой.

    Информация – это данные, представляющие определенный смысл для бизнеса. Аналогичные по структуре данные, одинаково размещенные в системе хранения, могут иметь совершенно разный смысл и, следовательно, разную ценность для компании. Например, личное письмо сотрудника, посланное по электронной почте, и письмо того же сотрудника, содержащее конфиденциальные сведения о клиенте.

    ILM предлагает уйти от управления данными и сфокусироваться на управлении информацией. Для этого необходимо в первую очередь изменить подход к ее хранению. В рамках ILM предлагается классифицировать бизнес-информацию компании, прежде чем она попадет в инфраструктуру хранения. Классификация – это необходимый для эффективного управления жизненным циклом информации процесс, обеспечивающий хранимые данные адекватной семантикой.

    Для этого процесса вводятся понятия целевых показателей уровня сервиса (Service Level Objectives — SLO) и «политик» (Policies), на основе которых будет осуществляться управление хранением информации. SLO определяет, какие показатели ключевых характеристик (надежности, доступности и др.) должны обеспечиваться инфраструктурой хранения для данного класса информации. «Политики» определяют необходимые действия с конкретными классами информации при возникновении определенных условий (например, при окончании срока жизни информации). Основой для формирования SLO и политик являются бизнес-требования и бизнес-процессы компании, а также различные нормативные акты.

    Таким образом, подход к хранению данных в датацентре становится информационно-центричным.



    Создаваемая информация классифицируется, с ней связываются определенные SLO, на основании которых интегрированный в инфраструктуру механизм управления размещает эту информацию согласно заданным политикам. Это значит, что информация, требующая высокой доступности, попадет в высокопроизводительные системы хранения, а та, что не является критически важной для бизнеса, разместится в недорогих хранилищах.

    При этом механизмы работы приложений с данными не меняются, но инструменты управления постоянно отслеживают ценность информации, ее состояние и перемещают ее в адекватные системы хранения согласно политикам и SLO. На определенном этапе жизненного цикла информация может стать ссылочной, устареть или повторно использоваться. Тогда механизм управления в первом случае передаст ее в архив, во втором – просто удалит, а в третьем – заново классифицирует и свяжет с другим SLO.

    Таким образом, датацентр, построенный согласно ILM, обеспечивает следующие основные преимущества:

    • снижение стоимости хранения информации (за счет своевременного переноса данных в недорогие системы хранения и уничтожения устаревшей информации);
      строгое соблюдение нормативных актов, регламентирующих хранение данных, путем автоматического применения политик;
      достижение соответствия характеристик хранения (надежности, защищенности, доступности и др.) различным классам информации;
      исключение дублирования информации (за счет управления ссылочными данными).

      И при этом информация всегда предоставляется в нужном месте, в нужное время и по оптимальной цене.
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 41

      +4
      Это мой первый опыт публикации на Хабре довольно серьёзной статьи (рассчитана на enterprise сектор и относительно новую тематику). Можно считать её перекликающейся с моей заметкой про защиту данных (http://www.habrahabr.ru/column/2543/).
        0
        Статья хорошая.
          0
          Большое спасибо. Не скрою, что приятно.
        +2
        Огромный тебе респектищще за статью! Актуально, интересно и доступно. Именно такой я бы хотел видеть хабру в будущем!
          0
          Спасибо. У меня есть сомнения в том, что Хабр в ближайшем будущем станет профессиональным ресурсом. По нескольким причинам.

          Во-первых, готовить такие материалы весьма сложно. Я готовил эту статью в рамках своей профдеятельности (т.е. мне оплачивали моё время — два рабочих дня), при этом мне помогали два редактора (вычитка, стилистика). Изначально статья была немного веселее и агрессивнее, после правок стала более гладкой и красивой (ну и более слащавой).

          Во-вторых, я соглашусь (о, какая неожиданность) с шипом http://urbansheep.livejournal.com/157718… От себя добавлю лишь, что часто даже грамотный редактор не спасёт, если у автора нет компетенции по рассматриваемому им вопросу. Читать мнение обывателя о сложной теме не очень интересно.

          В-третьих, даже рассматривая пример удачных, хороших постов можно увидеть, что ориентации автором направлена на повыщение кармы и рейтинга (иногда даже по комментам прослеживается). Т.е. механизм превалирует над ценностью.

          Прошу простить, если кого-то задел.
            0
            Гонка за кармой, конечно, повышает попсовость, но я, например, выхода из этого положения не вижу. По себе знаю, что, как только рейтинг большой, то перестаёшь за ним гоняться.
              0
              Ага, я вот теперь не знаю, что с этим первым местом делают :)
                0
                Бесконечные жизни, возможность изменить карму любого персонажа, админский вход на хабр, ну и мультик какой-нить покажут наверное :)
          0
          Очень здорово написано, спасибо вам огромное!
            +1
            Жизнено необходимая концепция, за Бугром наверняка уже разработано программное обеспечение, это ближе к разработкам Oracle.
              0
              Как ни странно, Oracle весьма пассивен в этом вопросе (ILM).
                +1
                Свято место пусто не бывает, значит эту нишу займёт кто-нибудь другой.
                  0
                  Что касается текущей ситуации, то в этом направлении активно работают HP и особенно EMC.
                  0
                  в 11g oracle делает шаги к ilm.
                +3
                >Мы можем сделать важный вывод: разные классы информации имеют разную ценность для бизнеса, и эта ценность меняется с течением времени.

                Из приведенного графика и легенды к нему совершенно непонятно почему вдруг классификация информации была проведена именно так. Я не говорю про методику исследования, которая осталась за кадром - лично я не понимаю как вдруг так получились такие странные графики - мне интересно почему вдруг email стал каким-то особым классом информации? Email, маркетинговые, девелоперские данные - это, если развивать мысль статьи есть классы ДАННЫХ. Те же email могут устаревать через несколько минут или часов, а могут иметь ценность несколько лет или даже десятков лет. В зависимости от того, очевидно, какая информация в email заключена. Таким образом, понятно что основной сложностью является формирование стратегии, или нет - даже просто определение принципов сортировки информации. Тут были упомянуты красивые слова - политики, SLO... Но дальше то что? Где хоть один конкретный пример того, как мы будем фильтровать информацию и решать - что хранить, а что - нет?

                При таком подходе есть еще проблема взаимозависимости данных, их взаимосвязанности. Нельзя так просто убить пачку писем - нужно понять что за данные они за собой потянут дальше. Поэтому проблема сложнее и шире - как найти способы рассортировать информацию по актуальности в определенный момент времени да плюс к этому обеспечить более менее приемлемые сроки перевода информации из запасников в оперативное поле принятия решений.

                Кстати, посыл насчет необходимости ограничивать объемы хранения информации мне кажется немного надуманным. Средства хранения постоянно развиваются, и мне кажется еще долго возможности хранилищ будут опережать объем информации. Поэтому, нужно думать о том, как уменьшить затраты на обработку информации, которая не нужна. И тут, как ни странно, вывод получается неожиданный - от объема информации (или, если хотите, данных) скорость обработки мало зависит при ПРАВИЛЬНО ПРОДУМАННОЙ АРХИТЕКТУРЕ РЕШЕНИЙ. Таким образом, затраты на процессинг будут пропорциональны не объемам данных, а их СЛОЖНОСТИ.
                  0
                  "Вперёд и вверх!" - что-то уж очень сильно смахивает на "Wow!", или "Think different!", или ещё какая-нибудь бессмысленная фраза с восклицательным знаком на конце.
                  Вот если бы автор писал конкретно, это было бы куда интересней.
                    0
                    Да, соглашусь :) В следующей статье будет конкретней, но не настолько, чтобы не оставить поля для размышлений.
                    0
                    Email, маркетинговые, девелоперские данные - это, если развивать мысль статьи есть классы ДАННЫХ
                    Email можно выделить в отдельную группу в силу своей специфики…

                    Те же email могут устаревать через несколько минут или часов, а могут иметь ценность несколько лет или даже десятков лет
                    …а часто используемые письма, как правило, сохраняются в соответствующем месте в удобочитабельном формате и становятся документацией (перестают быть письмами, from/to пропадает).

                    А в остальном правильно написано, только опять же «красивыми словами».
                    • НЛО прилетело и опубликовало эту надпись здесь
                        0
                        Согласен полностью. А про скорость обработки можно сказать, что это не главное при работе с архивом. Главное - удобный инструмент задачи поиска.

                        Архив это всего лишь часть решения. Кроме архива в системе хранения много чего есть.

                        Проблема объема информации это не "немного надуманная проблема" - это просто не проблема на сегодняшний день... да и в обозримом будущем то-же.

                        Для домашнего юзера, SOHO и малого бизнеса действительно не проблема. Но я о них и не говорю.
                          0
                          Вот уж для энетерпрайз-то не проблема. Если всё грамотно продуманно, то стоечка с хранилищем данных обеспечит скорость доступа к архивам ещё быстрее чем у домашнего юзверя. Ибо домашний юзверь дома Итаниумов держать не будет ;)
                            0
                            Высокопроизводительное хранилище стоит примерно в 10 раз дороже "обычного" (SATA w/o SAN). Вот и посчитайте, сколько денег улетит в трубу при бездумном размещении в high-end storage каких-то смешных 100 ТБ данных.
                              0
                              Смешные 100тб. Это откуда столько? У нас аксапта за год 2 максимум выжирает.
                                0
                                Рад за вас :) Хотя 2ТБ в год — уже повод задуматься. Дальше будет хуже.
                                Про 100ТБ. Я конечно намеренно преувеличил. Но есть задачи, где объём растёт экспоненциально. Рентгенография, аэрофотосъёмка, логистика, почта наконец.
                        0
                        Из приведенного графика и легенды к нему совершенно непонятно почему вдруг классификация информации была проведена именно так. Я не говорю про методику исследования, которая осталась за кадром - лично я не понимаю как вдруг так получились такие странные графики - мне интересно почему вдруг email стал каким-то особым классом информации?

                        Это пример. Для каждой компании будут свои классы и свои графики.

                        При таком подходе есть еще проблема взаимозависимости данных, их взаимосвязанности. Нельзя так просто убить пачку писем - нужно понять что за данные они за собой потянут дальше.

                        Не надо ничего убивать. SLO определяют необходимые уровни сервиса. Если некоторый класс в некоторый промежуток времени имеет малую ценность, то он хранится на малопроизводительном и невысоконадёжном хранилище. А его резервирование производится реже или не производится вовсе. Вот и всё.

                        Поэтому проблема сложнее и шире - как найти способы рассортировать информацию по актуальности в определенный момент времени да плюс к этому обеспечить более менее приемлемые сроки перевода информации из запасников в оперативное поле принятия решений.

                        Первым занимаются специальные компании в рамках классификации ваших корпоративных данных. Второе осуществляется с помощью специальных средств, автоматизирующих миграцию данных по системе хранения.

                        Кстати, посыл насчет необходимости ограничивать объемы хранения информации мне кажется немного надуманным. Средства хранения постоянно развиваются, и мне кажется еще долго возможности хранилищ будут опережать объем информации.

                        Статистика (IDC, Gartner) говорит обратное. Несмотря на удешевление стоимости хранения за гигабайт, совокупная стоимость хранения данных постоянно растёт (и иногда весьма энергично).

                        Поэтому, нужно думать о том, как уменьшить затраты на обработку информации, которая не нужна.

                        ...Что отлично вписывается в концепцию управления жизненным циклом информации.
                          0
                          Прочитал ваш комментарий. Извините, но лично мне все написанное показалось просто красивым набором каких-то заумных концепций. Я не вижу практического решения поставленных задач. Кроме того, я не понимаю откуда берутся такие концепции и выводы. Если графики, которые были приведены в статье являются частным примером, то почему вдруг на их основе делаются какие-то выводы. А ссылки на IDC и Гартнер вообще не вызывают у меня ничего кроме раздражения - эти агентства известны своими пустовысосанными из пальца прогнозами и ни к чему не обязывающей аналитикой.

                          В общем, проще надо быть. И тогда люди к технологии потянутся. Пока же это все мутная вода, в которой кто-то ловит рыбу.
                            0
                            Пусть будет так, как вы считаете.
                              0
                              Обиделись, судя по всему? Зря. Пишете статью на серьезную тему - готовьтесь к критике. Это нормально.
                                –1
                                Могу дать совет. Прежде чем дискутировать, хорошо бы что-то почитать по теме. В идеале — разобраться в теме и обрести компетенцию.

                                Но в любом случае, пусть будет так, как вы считаете.
                                  0
                                  Вы видимо считаете себя компетентным в теме? Действительно компетентный человек аргументирует свое мнение и ведет дискуссию корректно. И тем более не считает собеседников менее компетентными чем он сам.

                                  Вы же ставите плюсы друзьям и получаете плюсы в ответ за ничего не значащие сообщения, а мне тупо понаставили минусов везде где можно. Вывод напрашивается простой: к вашим постам нельзя относиться серьезно, как это я сделал в самом начале. Очевидно для вас это такой способ набрать каких-то липовых очков, чтобы в глазах окружающих выглядеть умнее. Или потешить свои комплексы.

                                  За сим откланяюсь.
                                    0
                                    Пусть будет так, как вы считаете.
                        0
                        Да, стоит добавить, что в одном и том же массиве данных в разных ситуациях информацию (смысл) могут нести совершенно разные куски. И если как эти блоки дробить еще более менее может быть понятно, то как эту куски потом друг от друга отдельно хранить и чего то с ними дальше делать - непонятно совершенно. С этой задачей мозг человека то справляется с трудом, храня всю (!) получаемую за жизнь информацию по максимуму. Так что всякие экспертные системы и прочие автоматизированные ИИ системы ближайшие лет 200 рядом не будут валяться.
                          –1
                          Я, честно говоря, не понял про какие куски идёт речь и при чём здесь ИИ.
                            0
                            А чего тут непонятного - просто развитие мысли из вашего же поста. Есть данные, а есть информация. Информация - есть подмножество в данных, поскольку не все данные несут смысл. Я написал, что для разных задач в одном и том же массиве информации информацией будут разные блоки. Простой пример: есть email с полями From, To, Body. Для получателя письма актуальными будут поля From и Body, поскольку поле To ему не нужно, он и так знает, что письма адресованы ему. Поэтому эти данные в хранилище ему не нужны, их можно убить или перенести куда-то вглубь. А для службы безопасности компании, например, важны поля From, To в первую очередь. А поле Body во вторую.

                            Пример немного притянут, просто с ходу более простого не нашел. Но из него должно быть понятно, что я имел в виду. Таким образом все "данные" по вашей терминологии конечно же содержат "информацию" и "хлам". Вот только непонятно как их делить, хранить и обрабатывать.

                            Про ИИ - опять же чего тут непонятного? Построение экспертных систем пересекается с разработками в области ИИ. А процесс классификации информации - это типичная область приложения для экспертных систем.
                              0
                              Пусть будет так, как вы считаете.
                            0
                            Не стоит говорить о том, о чём не имеешь представления.
                            1) Современные системы (правда не совсем ИИ) на данный момент замечяательно справляются с кластеризацией таких массивов информации, которые человеческий мозг может и запомнил бы, но время на запоминание составило бы всю продолжительность жизни.
                            2) С другой стороны существует довольно много ИИ, которые проходят многие из постоянно придумываемых тестов на разумность. (Хотя бы тот же podbot, который при должном обучении может общаться с человеком часа полтора и не быть раскрытым)
                            +1
                            Концепция вполне логичная, в процессе обработки, храния и удаления информации необходимо задать необходимые критерии и исходя из них разработать необходимое ПО легко масштабируемое и гибкое в плане внесения изменений в алгоритмы.

                            Увеличивающиеся мощности дата-центров, приводят к увеличению их захламленности в силу ментальности людей, т.е. исходя из принципа:"А вдруг пригодится", хотя на самом деле эта информация уже давно не актуальна и от неё необходимо очистить серверы хранения информации.

                            На своём @gmail.com я храню мизер информации, менее 1Мбайта и взял за правило сразу же удалаять информацию, которая актуальна несколько минут.
                              0
                              Угу. Всего-то навсего нужно "задать критерии" и "разработать необходимое легко масштабируемое ПО".
                                0
                                ПО есть, критерии задают специально обученные задавальщики. В чём проблема-то?
                                  0
                                  А... Сорри. Не понял сразу, что Вы теоретик.
                                  0
                                  Это всего-лишь некоторые мои мысли, на самом деле задача достаточно сложная в плане реализации.

                              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                              Самое читаемое