Pull to refresh

Ученые HP Labs совершенствуют дедупликацию

Hewlett Packard Enterprise corporate blog
Сегодня многие компании для резервного копирования вместо традиционных ленточных библиотек используют RAID-массивы жестких дисков. Выгода от такой замены очевидна – существенно ускоряется запись резервных копий и восстановление с них исходных данных, легче найти нужную резервную копию или проверить соответствие резервной копии оригиналу. Однако несмотря на постепенное сокращение стоимости одного гигабайта емкости жестких дисков по этому показателю они обходятся значительно дороже, чем магнитная лента.

StorageWorks D2D
image

Кроме того, в ленточных библиотеках используются сменные носители, поэтому полностью заполненный ленточный картридж можно извлечь из библиотеки и отправить в хранилище, а вместо него вставить чистый картридж. Емкость дисковых массивов таким способом масштабировать нельзя и если все на дисках не останется свободной емкости, то нужно удалить часть старых резервных копий либо подключить к нему дополнительные дисковые полки (последнее не всегда возможно из-за ограничений самого массива или отсутствия места в стойке, в которой смонтирован массив).

Для снижения стоимости хранения резервных копий на жестких дисках многие вендоры предлагают свою реализацию технологии дедупликации, которая снижает общий объем резервных копий за счет выявления идентичных наборов исходных данных. Для таких дубликатов записывается только одна резервная копия и в зависимости от типа исходных данных сокращение объема резервных копий может доходить до двух порядков.
Свой подход к дедупликации в конце июня на конференции HP Technology Forum 2010 представила и Hewlett-Packard, которая в отличие от своих главных конкурентов по рынку систем хранения не стала тратить деньги на поглощение фирм, специализирующихся на нишевых решениях дедупликации, а воспользовалась разработками ученых из HP Labs.

Одна из главных проблема при онлайновой дедупликации – это необходимость «на лету» анализировать поток данных, поступающий со скоростью несколько сотен мегабайт в секунду и искать дубликаты по индексу, в который заносятся ранее скопированные данные. Если весь индекс находится в оперативной памяти компьютера, то такой поиск выполняется достаточно быстро, но по мере роста объемов резервных копий индекс уже не помещается в ОЗУ и тогда его нужно выгрузить на жесткий диск. Скорость чтения/записи при этом резко падает и в результате обращение к индексу начинает сильно тормозить процесс дедупликации.

Созданная в HP Labs технология StoreOnce применяет алгоритм индексации Sparse Indexing (редкого или выборочного индексирования), предусматривающий, что в оперативной памяти находится только выборка (sample) индекса, а основная часть индекса хранится на жестком диске. Принцип работы Sparse Indexing основан на том факте, что обычно дубликаты идут пачками, т.е. если для первого блока данных уже есть дубликаты, то скорей всего и для последующих блоков данных тоже найдутся дубликаты. Sparse Indexing последовательно записывает на жестком диске хэш-указатели серии блоков данных, поэтому если для нового блока данных в выборке индекса найден дубликат, то в ОЗУ быстро загружаются с жесткого диска указатели на возможные дубликаты следующих блоков данных (подробное описание StoreOnce можно найти в статье разработчиков этой технологии из HP Labs — www.hpl.hp.com/personal/Mark_Lillibridge/Sparse/final.pdf)
HP будет применять StoreOnce для дедупликации во всех своих дисковых системах резервного копирования серии StorageWorks D2D, включая объявленную на HP Technology Forum 2010 двенадцатидисковую модель D2D4312, масштабируемую до 36 Тбайт полезной емкости (аппаратная часть всех этих систем – стоечные модели серверов стандартной архитектуры HP ProLiant DL, например, показанная из фото HP StorageWorks D2D4312 разработана на базе двухсокетного HP ProLiant DL370). Кроме того, компания планирует в будущем интегрировать StoreOnce с пакетом резервного копирования HP Data Protector и аналогичным программным обеспечением других вендоров, а также применять ее в приставках хранения и реализовать эту технологию с помощью виртуальных машин.
Tags:
Hubs:
Total votes 22: ↑22 and ↓0 +22
Views 11K
Comments Comments 48

Information

Founded
Location
США
Website
www.hpe.com
Employees
5,001–10,000 employees
Registered