itglobalcom 27 апр 2021 в 18:31

От перфокарты к ДНК: как менялся подход к хранению данных

8 мин

3.9K

Блог компании ГК ITGLOBAL.COMИсследования и прогнозы в IT*

Кажется, мы начали забывать, как выглядят по-настоящему многофункциональные вещи. Кто помнит перфокарты, которые использовали как бумагу для записей? А компакт-диски, из которых мастерили детям в садик? Или флешки, которыми украшали ноутбук? Вы тоже носили свою первую флешку Transcend 256 МБ или 128 МБ на ленточке? Или вы из поколения гигабайтов или перфокарт? В любом случае, с каждым годом средства для хранения данных все дальше уходят от идеи многофункциональности. В отличие от флешки, облачный сервис не подаришь коллеге на 23 февраля. Хотя…

Что интересно, вся эта смена носителей с гонкой безумного накопления, хранения и потребления данных происходит прямо на наших глазах. Вчера ты подписывал карандашом дискету, а сегодня пишешь запрос для SQL.

Большая часть всех данных в мире появилась в последние несколько лет. С 2015 по 2020 год их количество удваивалось каждые два года. Причин такого взрывного роста довольно много. Например, рост количества банков, которые хранят информацию о транзакциях и держателях карт, или переход медицинских учреждений на электронное хранение данных о пациентах. Сюда же относятся умные дома, в которых каждая розетка может генерить данные. Плюс, с развитием соцсетей и облачных служб хранения, большой поток контента идет от самих пользователей. Например, за 2020 год 3,5 миллиарда человек создали 59 зеттабайт данных, что равно примерно 670 трлн полнометражных фильмов.

Кто успел подержать в руках каждый из этих девайсов?

При таком впечатляющем потоке данных их хранение будет обходиться все дороже, а потеря станет еще критичнее. Поэтому сейчас инженеры активно работают над созданием новых подходов к хранению данных.

Краткая история хранения данных

Что мы имеем в виду, когда говорим «данные»? Несмотря на то, что термин произошел от латинского слова data (информация), данные — это еще не информация. Чтобы они ей стали, нужна обработка. Поэтому, если мы говорим о хранении данных, то подразумеваем их хранение и обработку.

До 1950-х годов в качестве носителя информации использовали перфокарты. Одна узкая картонка с отверстиями вмещала максимум 120 байт информации, но чаще туда записывали не больше 80 байт. Чтобы уместить 1 гигабайт данных, нужно было 20 тонн перфокарт. Понятно, что при таком способе о систематизации или резервном копировании можно было только мечтать.

Так выглядели 80 байт во времена наших бабушек

В 1950-х годах появились кассеты с магнитной лентой. Их объем достигал 80 Мб, что вполне устраивало многих пользователей годов примерно до 90-х. Правда, срок хранения данных на магнитной ленте редко превышал 50 лет. Зато они были компактными, а значит появилась возможность выполнять резервное копирование.

На таких лентах до сих пор хранятся архивы Госфильмофонда России

В 1970-х годах человечество создало первый жесткий диск (HDD). Его главное отличие — уход от последовательного доступа к данным. Те, кто успел застать кассеты, помнят, что для доступа к нужной записи нужно было перемотать ленту. HDD решил эту проблему, сэкономив пользователям кучу времени.

Спросите школьника, как с помощью карандаша найти данные на кассете, и он не сможет ответить

В 1980-х годах начали появляться правила хранения и защиты данных, которые чем-то напоминают нынешние. Например, многие компании обзаводились персональными серверами. А некоторые даже не забывали копировать важную информацию на дискеты и магнитные ленты.

Ручной канал передачи данных на дискетах работал без отказов

В 1990-х годах появились первые сайты. Интернет стал доступнее для широкой публики, что резко увеличило потребность в системах хранения данных. В то же время появились первые дата-центры.

В 2000-х годах пользователей интернета стало еще больше, они начали активно использовать флэшки, разработали первые стандарты надежности дата центров. Развитие технологий приводит к появлению разных решений для хранения данных: сетей для обмена данными на уровне блоков SAN (сеть для хранения), серверов для хранения на уровне файлов NAS (хранилище, подсоединенное к сети) и традиционных СХД DAS.

С появлением облаков другие устройства для хранения вроде как можно сдать в утиль

В наши дни все больше информации хранится в облаках ЦОДов. Но, что удивительно, многие форматы из прошлого до сих пор актуальны. Например, некоторые хранят архивы на магнитных лентах.

Почему сложно организовать хранение данных

Откуда у современной компании так много данных? Прежде всего, причина в тотальной цифровизации. Документооборот, переписка с клиентами, подрядчиками и поставщиками, кадровое производство, налоговые документы — все ушло в электронный формат. Сроки хранения этой информации регламентируется законом, их нельзя нарушать. Для эффективной работы нужно регулярно анализировать бизнес-показатели. Для этого тоже нужно собирать, хранить и обрабатывать большие объемы данных. Плюс, современные сервисы настроены так, чтобы собирать и хранить максимум информации о любом человеке (в рамках закона, разумеется). Часть ее попадает под закон о персональных данных, а значит, требует особых условий хранения.

Все это приводит к тому, что с каждым годом компаниям нужно хранить и обрабатывать все больше данных.

Из-за того, что компании все чаще отказываются от централизованного хранения, управлять данными стало сложнее. Часть важной информации находится в облачных хранилищах, часть в периферийных средах. При этом последние иногда располагаются за много километров от компании. А значит, нужны надежные и быстрые каналы передачи данных.

Выросли расходы на хранение и обработку данных. Это логично, ведь чтобы хранить и обрабатывать много данных, нужно много серверов. Причем мало купить оборудование, нужно обеспечить его мониторинг, обслуживание и обновление. Поскольку отказаться от хранения данных нельзя, остается снижать расходы на сервис, уровень энергопотребления и покупку систем хранения.

Появились большие данные. Впервые этот термин употребили в 2008 году в журнале Nature. С того времени и до сих пор считается, что появление больших данных связано с развитием науки. Например, только на серверах NASA хранится свыше 37 петабайт данных о климате. Однако большие данные все чаще используют в других областях, например, в финансовой сфере и в маркетинге.

Еще несколько проблем, с которыми можно столкнуться при использовании данных, перечислены в отчете IDC:

невозможность использовать полученные данные (39%);
неэффективное управление данными (37%);
невозможность собрать необходимые данные в полном объеме (36%);
проблемы с безопасностью данных (35%);
неравномерная доступность разрозненных баз данных (30%).

Как менялся подход к хранению данных в мире

Сегодня есть несколько подходов к хранению и обработке данных. Самые продвинутые из них учитывают тип данных и то, насколько критичной является скорость их обработки.

Понятно, что если у компании есть ресурсы, можно хранить и обрабатывать практически любые объемы информации. Однако задача большинства организаций — сократить, а не раздувать расходы. Поэтому для снижения затрат придумали гиперконвергенцию. Эта технология распределенного хранения данных и виртуализации позволяет получить нужный объем и потратить меньше, чем при использовании SAN или NAS. При таком подходе информация хранится на разных серверах, образующих единый массив, а пользователь управляет ей из единого места. Мощности процессоров, память и диски образуют единый вычислительный центр. Данные обрабатываются в потоковом режиме, благодаря чему не нужно ждать, пока накопятся огромные объемы информации.

Разница между тем, сможем мы получить информацию за секунду, десять секунд или тридцать секунд — огромна. Поэтому в 2015 году появилась методология DataOps, которая позволила автоматически сокращать время анализа информации. Она применяется ко всему жизненному циклу данных и позволяет связать между собой разрозненные данные. Ее необходимость объясняется очень просто — информации стало слишком много. Огромные данные, заботливо собранные ERP, биллинговыми системами и т.д. нужно быстро анализировать и использовать в интересах бизнеса. Раньше для работы с ними требовалось несколько инструментов, что очень замедляло процесс. Теперь хранилища позволяют управлять бизнес-процессами практически в реальном времени.

Огромное количество данных нужно не только анализировать, но и своевременно отправлять на утилизацию. Делать это в ручном режиме сложно, поэтому для управления жизненным циклом информации разработали теорию Information Lifecycle Management (ILM). Она позволила автоматически контролировать появление, применение, хранение и утилизацию данных.

Как менялся подход к хранению данных в России

В целом тенденции в нашей стране соответствуют общемировым. Но к ним добавляются внутренние требования к хранилищам данных и особенности российского ведения бизнеса. Большая часть компаний в нашей стране — это микропредприятия, почти у половины нет собственного штата наемных работников. Часто предпринимателям не хватает технической и юридической грамотности. Например, человек не знает, как часто нужно делать бэкапы или как защитить клиентские базы от утечки данных.

При этом крупные компании в России до сих пор предпочитают хранить данные на собственном оборудовании, тогда как в США и Европе более популярны облачные сервисы. Там принято арендовать мощности для хранения и обработки данных у провайдера. Это позволяет полностью переложить ответственность за хранение и обработку на внешнюю компанию и избавиться от непрофильных задач. Компании в нашей стране переходят в облака медленнее, чем на западе. Многим кажется, что собственность надежнее, чем аренда. Возможно, из-за этого у нас по-прежнему растет популярность HDD-накопителей, которые подходят для масштабирования корпоративных ЦОДов.

Одновременно увеличивается количество локальных ЦОДов, которые позволяют хранить данные в России. Это связано с требованиями законодательства.

В нашей стране сравнительно недавно появилось понятие «персональные данные», хранение которых требует особых условий. Каждая компания, которая обрабатывает и хранит персональные данные, должна делать это строго в рамках закона. Например, если на сайте или в приложении есть личный кабинет, форма для сбора email или геолокации — компания подпадает под действие 152-ФЗ закона «О персональных данных». В нем подробно прописано, как можно хранить и обрабатывать личную информацию. Например, компания должна зарегистрироваться в Роскомнадзоре, получить письменное согласие на обработку данных, разработать внутреннюю документацию.

Взгляд в будущее

Эксперты считают, что к 2025 году 80% всей рабочей нагрузки в мире переместится в облачные хранилища.

Возможно, в будущем мы даже будем хранить данные в ДНК. Работы в этом направлении идут уже сейчас. Информация в ДНК хранится не в двоичном коде, а в виде цепочки на основе четырех оснований (аденин, гуанин, цитозин и тимин). Конструкцию синтезируют в лаборатории и хранят в виде жидкости. Плюс такого метода — один грамм носителя вмещает 1 зеттабайт данных. Рядом с ним современные СХД выглядят как перфокарта рядом с дискетой. Такой способ хранения отличается не только компактностью, но и простой масштабируемостью. Записанные таким образом данные можно будет хранить в течение тысячелетий.

Минус в том, что пока записывать данные в ДНК — долго, дорого и сложно. Для доступа к информации, зашифрованной в виде цепочки, нужен ДНК-секвенатор — прибор, который определяет набор последовательностей аденина, тимина, гуанина, цитозина и выводит их в виде текста.

Вместимость 1 грамма ДНК-носителя равна вместимости 34,4 млрд современных смартфонов

Альтернативный способ хранения данных из фантастических фильмов — 5D-оптическая память. Информация кодируется в слоях тонкого кварцевого диска, на который помещается до 100 петабайт. Для этого с помощью лазера на диск наносят нанорешетку, меняющую преломление света. Чтобы считать данные, датчик регистрирует участки от которых отражается или не отражается свет, что соответствует нулю и единице в двоичной системе. Срок хранения данных в кварце составляет поразительные 13,8 миллиардов лет.

Уже сейчас понятно, что имеющихся в распоряжении способов хранения данных хватит ненадолго. Искусственный интеллект, интернет вещей и другие технологии требуют все больших мощностей для обработки информации. Будут ли они создаваться на основе облаков, ДНК или принципиально новых решений — скоро узнаем.

Кстати, у кого до сих пор сохранилась первая флешка?

Блог ITGLOBAL.COM — Managed IT, частные облака, IaaS, услуги ИБ для бизнеса:

Теги:

Хабы:

От перфокарты к ДНК: как менялся подход к хранению данных

Краткая история хранения данных

Почему сложно организовать хранение данных

Как менялся подход к хранению данных в мире

Как менялся подход к хранению данных в России

Взгляд в будущее

Публикации

Информация

Истории