«Заложено природой»: Система хранения данных на основе ДНК



    / фото MIKI Yoshihito CC

    В нашем блоге на Хабре мы регулярно делимся с вами последними новостями из мира IaaS. Например, недавно мы говорили о том, какие изменения ждут дата-центры в будущем. Мы также рассказывали, как крупные интернет-компании хранят свои данные. Сегодня нам бы вновь хотелось обратиться к теме хранения данных и рассказать о перспективной разработке – хранилищах на основе ДНК.

    Жесткие диски, которые широко используются в дата-центрах мира для хранения данных, не славятся своей долговечностью. Команда Backblaze провела исследование и выяснила, что HDD хранят информацию всего лишь 10 лет.

    К сожалению, это современные реалии – запоминающие устройства не могут служить вечно. По этой причине исследователи со всего мира стараются найти способ хранить данные как можно дольше – в идеале бесконечно.

    И они его нашли. Считается, что ответ на все вопросы лежит в ДНК – она обладает высокой плотностью записи (1 эксабайт на 1 мм3) и долговечностью (установленный период распада составляет более 500 лет).

    Размеры «цифровой вселенной» превысят 16 зеттабайт к 2017 году. Значительная доля этих данных хранится в виде архивов. К примеру, компания Facebook недавно построила отдельный дата-центр для «холодного» хранения 1 эксабайта данных. Такое же количество информации способно уместиться в 1 мм3 ДНК.

    Сохранение данных в ДНК проходит в три этапа: преобразование цифровых данных в последовательность нуклеотидов ДНК, синтез молекул ДНК и, непосредственно, хранение данных. Чтобы данные считать, необходимо выделить требуемую последовательность из молекулы ДНК и преобразовать её в первоначальный вид.

    Стоит отметить, что в работе с ДНК-хранилищами есть свои сложности, например, имеются вопросы касательно стоимости шифрования данных, однако исследователи уверены – по мере развития медицинских технологий, она будет снижаться.

    Так и происходит. Время на проведение синтеза и секвенирования уменьшается экспоненциально, а рост их эффективности следует закону Мура.



    Тренды в ДНК-синтезе в сравнении с ростом количества транзисторов на кристалле

    Более того, стоимость подобной процедуры также падает. Раньше стоимость расшифровки генома человека составляла миллионы долларов, а сегодня она снизилась до нескольких сотен.

    Эти положительные тренды привели к тому, что ученые из Вашингтонского университета начали разработку системы хранения данных типа «ключ-значение» на основе ДНК. Они хотят изучить возможность применения таких систем в современных архитектурах.

    Процесс кодирования информации

    ДНК содержит четыре типа нуклеотидов: аденин (A), цитозин (С), гуанин (G) и тимин (T). Нить ДНК представляет собой линейную последовательность этих нуклеотидов. Таким образом, у нас есть четыре кодовых символа (A, C, G и T), поэтому очевидным подходом к хранению двоичных данных будет их кодирование в четверичной системе счисления, например, 0=A, 1=C, 2=G, и 3=T. Однако стоит учитывать, что синтез и секвенирование подвержены ошибкам.

    Вероятность ошибок можно снизить, если закодировать двоичную информацию не в четверичной, а в троичной системе счисления, как показано на рисунке ниже. Чтобы избежать неэффективного преобразования исходных двоичных данных в троичную систему счисления, используется код Хаффмана.



    Сопоставление двоичных данных и нуклеотидов ДНК

    Каждая из трех цифр соотносится с нуклеотидом ДНК в соответствии с таблицей (ниже), причем нуклеотиды в цепочке не повторяются, что приводит к снижению ошибки секвенирования.



    Таблица кодирования нуклеотидов

    Чтобы обеспечить возможность произвольного доступа к данным, ученые оганизовали перевод ключей в уникальные последовательности праймеров. Праймеры – это короткие синтетические нити, определяющие начало и конец области, которую необходимо амплифицировать.

    Праймеры обеспечивают произвольный доступ с помощью полимеразной цепной реакции, которая генерирует множество копий ДНК в решении. Цепи конкретного объекта имеют общий праймер, а разные цепи с одним и тем же праймером различаются по адресам.

    «Контролируя последовательности, которые используются как праймеры для полимеразной цепной реакции (ПЦР), мы можем указать, какие нити в решении будут проходить амплификацию. Для того чтобы считать значение ключа в решении, мы просто проводим ПЦР, используя соответствующий этому ключу праймер», – говорят ученые.

    Система хранения на базе ДНК

    Система хранения на базе ДНК состоит из синтезатора ДНК, кодирующего данные, контейнера для хранения данных и секвенатора ДНК, который считывает последовательности ДНК и транслирует их обратно в «цифру».

    Процесс считывания и записи данных в краткой форме приведен на схеме ниже.



    Работа СХД на базе ДНК

    Во время считывания образцы ДНК извлекаются из пула, снижая объем ДНК, доступной для последующих операций. Но ДНК легко копируется, поэтому при необходимости пулы могут без труда восполнить недостающие фрагменты. Если возникают трудности при последовательной амплификации, в пуле можно заново провести синтез ДНК после считывания.

    Заключение

    В будущем такие системы потенциально позволят сохранить огромное количество данных на микроскопических носителях. Представьте себе «флешку» объемом 100 мм3, способную хранить порядка 100 000 ПБайт данных.

    Однако пока что самым крупным препятствием к внедрению подобных технологий остается время. Расшифровка и чтение молекулы ДНК занимает многие часы. Поэтому такой тип хранилищ вряд ли подойдет для содержания часто используемых данных, однако способен первернуть наше представление о долговременных хранилищах в дата-центрах.

    P.S. Другие материалы по теме из нашего блога на Хабре:


    P.P.S. Мы подготовили ссылки на практические руководства на случай, если на выходных у вас будет время познакомиться с нашим IaaS-провайдером 1cloud и протестировать его возможности:

    1cloud.ru
    286,60
    IaaS, VPS, VDS, Частное и публичное облако, SSL
    Поделиться публикацией

    Комментарии 15

      –2
      Я конечно не биохимик, но читал одну умную стать написанную биохимиками (вроде на Элементах). У ДНК есть склонность к накоплению ошибок — мутаций. Без этого не было бы эволюции. И как писали эти умные дядьки — есть куда более надежные молекулы, которые можно использовать для структур подобных ДНК. Но они естественно не могли мутировать и потому не используются природой.
      Так вот это я к чему? А к тому, что может стоит создать что-то более надежное? И между прочим безопасное, а то мало куда потом эти накопители выкинут и какая зараза из них может случайно образоваться…
        +2
        простите но вы напоминаете бабушку у подьезда )
          0
          И между прочим безопасное, а то мало куда потом эти накопители выкинут и какая зараза из них может случайно образоваться…

          Правильно! Это же ГМО какое-то получается! Запретить! /sarcasm


          Вы сейчас очень большую глупость написали. Свободно валяющаяся ДНК никуда не встроится, не волнуйстесь.

            –1
            Возможно и глупость, я не специалист. Но учитывая, что доказано существование таких явлений как: горизонтальный перенос генов, мобильные генетические элементы и в конце концов — трансформация — процесс поглощения клеткой организма свободной молекулы ДНК из среды и встраивания её в геном. На глупость уже не тянет правда?
          –1
          Я конечно не эксперт в области хранения данных, но мне кажется что этот подход более оправдан чем хранение в ДНК.
            –2
            Основываясь на знаниях той же физики и химии, свободно доходишь до мысли, о том, что сама мысль (то бишь — информация) материальна (точнее сказать она отражается на материи), так как тело людей состоит, в конечном счёте, из элементарных частиц и волновые процессы во всей совокупности излучаемых ими полей дают определённую «картину», многие стремятся называть это «био-полем» и это поле не статично, организм ведь живёт развивается или деградирует, кому что. Так вот продолжая развивать идею, вполне определённо дойдём до мысли, о том, что информация (она же читай и мысль) так же оказывает влияние на материю, сообразно её перестраивая и изменяя, а вот теперь представим себе такое качество (или свойство, характеристику, параметр) как нравственную направленность хранимой информации (на развитие или деградацию), и что может получиться в результате её (информации) влияния на материальный носитель (ту же ДНК) на которой она записана и хранится, а может даже и обрабатывается, ведь генетический аппарат мутирует, т.е. подстраивается под влияние внешней среды, а значит и реагирует на эти самые воздействия с какой-то неведомой для нас логикой.
            И почему это должно быть понятно даже для бабушки у подъезда, но не понятно научным мужам?
            А что из этого может получиться, достаточно глянуть на основной контент циркулирующий в ИНете сейчас: порнуха да развлекуха в своей массе.

            П.С.
            К стати сказать, ещё никто не опроверг истинности идей Циолковского и Вернадского о ноосфере, справедливо заявлявших о том, что в ней хранится вся накопленная человечеством информация, предполагаю, что не только нынешней цивилизацией.
              +2

              А еще никто так и не опроверг, что на орбите где-то за Марсом летает маленький чайник. При чем, вполне возможно что он тоже хранит в себе всю накопленную цивилизацией информацию.

                0
                где вы нашли её?
                0
                Практика — критерий Истины.
                Единицам становится доступно, то, что большинство обходит стороной, последние же отвергают явление основываясь лишь на том, что «сии вещи не входят в круг их понятий».
                Опровергать наличие чайника может и имеет какой-то смысл, а вот действующие с полностью синтетическим геномом микро организмы «синтии» уже очевидная реальность для многих млекопитающих и людей, они ведь не плод эволюции, а результат (не-)осознаной деятельности «научного» сообщества. Кстати их геном, в тему данной статьи, уже содержит конкретную информацию, а именно закодированные е-мэйлы создателей. Вот ребята хотели как лучше — чтобы нефть кушали, а получили как всегда — кушают всё живое, как тут не вспомнить «благими намереньями мощена дорога в ад», и может быть не информация о мейлах так преобразила эти микробы, но ведь остальной геном не публичен не известно, что в него записали.
              0
              Меня вот тоже интересует:
              1) Может ли запись данных повлиять на мутацию и не вывалится ли это в какие нибудь совершенно новые болезни/мутации. Или есть особые участки ДНК, которые не участвуют в мутациях?
              2) Из первого следует то, что информация будет передаваться из поколения в поколение. Какова вероятность что спустя(например) семь колен информация останется в первозданном виде?
                0
                Похоже, у них это всё «в пробирке» делается, так что реальные организмы не используются и эти вопросы не стоят. Когда-то читал статью Лилы Кари как раз про разделение in vitro/ in vivo (в пробирке/в живую), но она пятнадцати-летней давности, не знаю, насколько это актуально.
                0
                Забавная опечатка из-за автоподстановки — С в скобках (цитозин) в копирайт превратился.
                  0
                  она обладает высокой плотностью записи (1 эксабайт на 1 мм3)


                  Это 10-9м на 1 байт. Что почти соизмеримо с размером 1 молекулы. Неужели действительно такая большая плотность?

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                  Самое читаемое