Как стать автором
Обновить
0

Архивы и спираль истории

Время на прочтение6 мин
Количество просмотров6.7K
О стремительном росте объёмов информации, генерируемой во всём мире, говорится на каждом углу. Обычно об этом вспоминают, когда речь заходит о сетевой инфраструктуре, клиентском контенте, поисковых технологиях и многих других вещах. Та же самая ситуация наблюдается и в корпоративном сегменте: в большинстве организаций многократно растут объёмы хранимой информации. Согласно отчёту Forrester Research, около 85% данных в корпоративных системах представляет собой статичный контент, который уже никогда не будет меняться. Всевозможные требования властей и регуляторов обязывают организации хранить различную информацию за несколько лет (например, информацию по всем клиентам и совершённым сделкам и т.д.). В результате бизнесу приходится тратить значительные средства на обеспечение хранения этой информации, вкладываясь в парк серверов, СХД, приобретение ПО и т.д.

Ещё одним следствием роста объёмов хранимых данных стало желание многих компаний иметь возможность проводить анализ и поиск по всему имеющемуся объёму накопленной информации. С определённого момента такая задача превращается в задачу обработки Big Data. Как следствие, возникает необходимость поиска решений, больше подходящих для хранения и работы с подобными массивами информации. Поэтому многие ищут более выгодные решения для хранения подобных массивов информации и работы с ними.

Любопытен пример компании Nokia, недавно продавшей своё мобильное подразделение Microsoft. Согласно условиям контракта, финны должны были передать новому владельцу весь информационный архив подразделения. Учитывая большой объём данных, в Nokia подошли к этому творчески: была приобретена компактная система архивного хранения, в базу данных которой залили всю необходимую информацию, а затем всю эту систему целиком просто отправили в Microsoft.

Говоря о росте объёмов хранимой информации, нужно упомянуть и о накоплении данных из устаревших приложений. По мере модернизаций информационных систем меняются рабочие среды, внедряются новые программные пакеты, перестраивается структура баз данных. В результате накапливается большой массив информации, хранимой в уже неиспользуемом организацией виде. Но, поскольку зачастую требуется обеспечивать доступность этих данных, то на поддержание уже неактуального оборудования и ПО годами тратятся дополнительные средства.

Про мифы


Сегодня многие склонны рассматривать архивные системы как устаревшую или неактуальную технологию. Например, считается, что резервное копирование успешно заменяет архивирование. На деле же это вовсе не взаимозаменяемые понятия. В отличие от резервного копирования, архив предназначен для сохранения информации без её избыточного дублирования, позволяет структурировать и индексировать данные, обеспечивает доступ к ним с возможностью поиска с опциональным шифрованием и применением разных политик. Кроме того, перенос статических данных в архив позволяет снизить нагрузку на приложения и обойтись более дешёвыми серверными кластерами и СХД.

Также распространено мнение, что архив — это некая беспорядочная груда информации, отражающая историю компании и ненужная для решения текущих и будущих бизнес-задач. Однако выше мы уже упомянули о таком тренде, как анализ массива данных о работе компании, накопленный за время её существования. По прогнозу Gartner, к 2017 году около 75% организаций будут использовать собственный архив как первоначальный источник информации. Сегодня таких организаций около 10%.

Следующее предубеждение относительно архивирования связано с желанием скрыть какую-то неудобную информацию от регулятора. Ведь в архиве куда проще что-то найти. Однако у этой ситуации есть обратная сторона: размер штрафов за непредоставление запрошенной регулятором информации может составить миллионы долларов. А это многократно больше расходов на создание архива.

Кстати о расходах. Бытует мнение, что архивирование — дорогое удовольствие. Однако на деле архивные системы дают заметную экономию средств. Это связано с использованием более дешёвых носителей, с уменьшением стоимости поддержки и ростом производительности основных рабочих систем. Также нужно напомнить и о том, что в 2014 стал рекордным по количеству утечек информации, а объём похищенных данных вырос по сравнению с 2013 на 78%. Репутационные и судебные издержки также могут обойтись куда дороже, чем использование архивной системы с шифрованием данных.

Наконец, ещё одним аргументом против создания архивов является мнение, что тот же функционал обеспечивают и ЕСМ платформы. Но есть ряд отличий. Во-первых, архив предназначен для работы одновременно со структурированными и неструктурированными данными. Он оптимизирован для хранения миллиардов записей и документов. Во-вторых, как отмечалось выше, хранение данных в архиве обходится дешевле за счёт переноса на более дешёвые носители, а также уменьшения размера резервной копии и высвобождения ресурсов рабочей системы.

Архив современного образца


Современная архивная система позволяет решать пять основных задач:
  • Сохранение данных для будущего использования.
  • Обеспечение постоянного доступа пользователей к хранимым данным.
  • Обеспечение конфиденциальности доступа.
  • Снижение нагрузки на рабочие системы за счёт переноса в архив статических данных.
  • Использование политик хранения данных.

Также важным свойством архива является хранение структурированной и неструктурированной информации в единой БД. Естественно, база должна быть развёрнута на отдельной горизонтально-масштабируемой СХД, чтобы можно было безболезненно расширять архив по мере увеличения объёмов данных.

В качестве подобного решения может быть использован EMC InfoArchive. Это комплексный продукт, представляющий собой связку «СХД + программная платформа архивирования и шифрования». Также InfoArchive будет полезен, когда необходимо хранить унаследованные данные из разнородных систем и в разных форматах, а также для задач анализа озёр данных. Под «озером данных» подразумевается репозиторий с очень большим объёмом сырых данных в исходных форматах, без какой-либо иерархической структуры.

В зависимости от конкретных условий (количество структурированных и неструктурированных данных; наличие и состав поддерживаемых в компании устаревших систем; потребность в использовании аналитических инструментов; создание облачных сервисов и т.д.) InfoArchive может быть построен на базе EMC Isilon, DataDomain, Atmos или Centera. На выбранной СХД развёртывается база данных EMC Documentum Dynamic Delivery Services (DDS), основанная на xDB и использующая целый ряд международных стандартов, в том числе открытые стандарты XML и OAIS (Open Archival Information System).



Особенностью InfoArchive является то, что все данные должны быть переданы в систему либо в виде информационных пакетов SIP, согласно стандарта OAIS или в виде простых XML структур, если заказчику не требуется соответствия со стандартом OAIS. Также вся хранящаяся в InfoArchive информация может быть доступна через JDBC для последующего использования/восстановления в исходном приложении.



Данные в реляционных БД представляются в виде связанных таблиц. Когда пользователь запрашивает какую-то информацию, приложение рассылает запросы по таблицам, агрегирует полученные ответы и предоставляет пользователю.









Для хранения, упорядочивания и передачи структурированной информации и мета-данных неструктурированной информации используются XML-файлы. Это позволяет создавать архив, объединяющий данные из разрозненных приложений. В InfoArchive реализована возможность осуществлять поиск по всем хранимым данным и использовать политики хранения, обеспечивать шифрование на лету и осуществлять управление доступом к определённым данным и их наборам. Вне зависимости от объёма архива, используется лишь одна СУБД.

Производительность системы зависит от количества и конфигурации СХД, а также от конфигурации самой платформы. Для примера, у некоторых клиентов производительность InfoArchive при получении структурированных данных достигает 2 млн записей/час (до 60 Гб/час). Система способна обрабатывать до 15 000 поисковых запросов в час, поиск одного документа в среднем занимает 0,5 сек., записи — 2,5 сек.

Для защиты данных используются политики доступа и шифрование с помощью EMC RSA KeyManager. Также InfoArchive может быть интегрирован с другими системами шифрования.

Заключение


Сегодня архивные системы в первую очередь внедряются в тех компаниях, в которых острее всего стоят проблемы нарастания объёмов данных, которые необходимо хранить и предоставлять по требованию регуляторов. В первую очередь это финансовый сектор, телекоммуникационная отрасль, коммунальное хозяйство и госсектор. И как показывает практика нашей компании, интерес к архивам всё чаще проявляют компании среднего размера, активно старающиеся усилить свои рыночные позиции. Наглядное свидетельство наступления информационной эры.
Теги:
Хабы:
+5
Комментарии0

Публикации

Информация

Сайт
www.delltechnologies.com
Дата регистрации
Дата основания
1979
Численность
свыше 10 000 человек
Местоположение
США

Истории