Пятничный формат: ДНК и решение проблемы хранения данных



    По мнению сотрудников компании Backblaze, которая не так давно провела эксперимент по вычислению длительности работы жестких дисков, некоторые HDD способны хранить информацию без повреждений порядка 10 лет – не так уж и много.

    К сожалению, современные запоминающие устройства не могут служить вечно. Именно поэтому исследователи стараются найти способ, позволяющий хранить данные как можно дольше – в идеале несколько миллионов лет.


    Вечный накопитель


    Исследователи из Швейцарской высшей технической школы Цюриха считают, что ответ может лежать в ДНК. По словам Питера Шэндболта (Peter Shandbolt), написавшего материал о перспективах хранения данных для блога CNN, структура нитей ДНК сложна и в то же время компактна, так что «один грамм ДНК теоретически способен вместить все данные таких крупных компаний, как Google и Facebook, причем даже с запасом».

    Говоря техническим языком, в одном грамме ДНК может храниться до 455 экзабайтов информации, где один экзабайт равен миллиарду гигабайтов.

    Процесс синтеза последовательности ДНК похож на нанизывание жемчуга на нитку. В этом случае информация кодируется в виде традиционных нулей и единиц.

    Эти значения присваиваются определенным химическим компонентам, мономерам, которые при помощи химических методов сцепляются в одну цепь, образуя полимеры. Чтобы прочитать записанную информацию, достаточно воспользоваться масс-спектрометром – устройством для считывания ДНК-последовательности.



    Знаменитая двойная спираль ДНК

    «Ископаемые» данные


    Информация о геноме живого организма может достаточно долго сохраняться в окаменелостях: так был расшифрован геном полярного медведя, жившего 110 000 лет назад, и геном лошади, возраст которой составляет 700 000 лет.

    По словам представителей Швейцарской высшей технической школы Цюриха (ETH Zurich), они хотят «совместить возможности хранения на ДНК большого объема данных со стабильностью ДНК, обнаруженных в ископаемых останках».

    «Мы отыскали необычные способы работы с ДНК, позволяющие сделать ее достаточно стабильной, – сообщает Роберт Грасс, преподаватель кафедры химии и прикладных биологических наук ETH Zurich, в интервью CNN. – Мы хотели связать воедино возможности ДНК, а именно высокую емкость хранения данных и ее археологические особенности».

    Таким образом, процесс хранения информации будет выглядеть так: ДНК, заключенная в стеклянную оболочку (инертную и нейтральную среду), хранится при низкой температуре и в сухом состоянии (на ДНК негативно влияют вода и кислород).

    В таких условиях информация в её нитях может оставаться неповреждённой на протяжении нескольких тысяч лет.

    «Мы смогли добиться того, что созданная нами ДНК с сохраненной на ней информацией распадается с такой же скоростью, что и ДНК, найденная в окаменелостях. Если так пойдет дальше, вскоре у нас появится возможность сохранить данные на срок до миллиона лет».

    Первые результаты


    Для проверки того, как долго данные могут хранится в ДНК, ученые закодировали 83 килобайта данных.

    Материалом послужили Швейцарский Федеральный устав от 1291 года и палимпсест Архимеда. Выбор этих документов, по мнению ученых, показывает не только потенциальную применимость метода, но и его историческую важность. По оценкам представителей ETH Zurich, эти данные останутся неизменными от 10 000 до миллиона лет (если ДНК подвергнется заморозке).

    Если говорить о количестве информации, то Джордж Черч (George Church), профессор генетики из института Вайса (Гарвард), поставил все предыдущие рекорды по количеству записанных данных в ДНК на колени, ему с коллегами удалось добиться плотности записи в 5,5 петабитов (около 700 терабайт) на кубический миллиметр жидкости – он создал 70 миллиардов копий своей книги по генетике. Для современных электронных носителей такие показатели пока являются недостижимыми.



    Однако, как и всегда, в работе с ДНК-хранилищами есть свои сложности, например стоимость шифрования данных. Однако исследователи уверены, что по мере развития медицинских технологий, она будет снижаться.

    «Раньше стоимость расшифровки генома человека составляла несколько миллионов долларов. Сегодня ее можно провести за несколько сотен долларов, – заявляет Грасс. – Новые технологии для проведения медицинского и геномного анализа можно будет вскоре внедрить и в мир IT».

    Но самым большим препятствием, которое пока еще не позволяет использовать ДНК для хранения информации на практике, является время.

    Даже с использованием современных технологий расшифровки, чтение молекулы ДНК занимает многие часы – на несколько порядков больше, чем чтение обычного файла на компьютере. Потому этот тип хранилищ не подходит для часто используемых данных.

    Однако они отлично подойдут на роль надежных долговременных хранилищ – например, это отличный вариант для создания «капсул времени».

    P.S. Материалы по теме из нашего блога:

    1cloud.ru
    214,22
    IaaS, VPS, VDS, Частное и публичное облако, SSL
    Поделиться публикацией

    Похожие публикации

    Комментарии 13

      +2
      Плотность хранения действительно очень большая. Молекул нуклеотидов 4, единицей хранения является триплет (три нуклеотида), то есть 81 комбинация. Вот только считать/записать также просто, как электронный носитель не получится и определенно, не масс-спектрометром. Просто успехи современной молекулярной биологии и генной инженерии конечно восхищают, но есть одно "но". Открытие цепной полимеразной реакции привело к том, что сделать много копий молекулы стало возможно и in vitro, "в пробирке". В клетке этот процесс называется репликацией, но это создание копии молекулы, а не считывание информации. Далее очень упрощенно. Считывание происходит в два этапа транскрипция, затем трансляция. ДНК->РНК->Белок. Вот тут все вместе организовать in vitro сложно и дорого, хотя и возможно. В общем, при желании использовать для "записи" можно и сейчас. Причем биотехнологи народ ленивый, все само должно записаться, над этим "само" и будут работать 90% времени. Считать в удобоваримом виде воспроизведя природные процессы задешево не получится.
      Несколько забавных фактов:
      90% генома эукариат ничего не кодируют. Они нужны, но прямо не содержат информации.
      У вирусов нередка картина, когда геном "заархивирован". Ген состоит из промотера (инициирует считывание) кодирующей части и терминатора. Так вот гены накладываются друг на друга, прямо в кодирующей части одного гена может быть промотер другого.

      На фотографии агар-агаровый гель в УФ после электрофореза
      Оранжевые полоски - разные по длине и структуре молекулы ДНК
      Светится не ДНК, а специальный краситель - бромистый этидий
        0
        Откуда 81? 4 разных нуклеотида — 2 бита, триплет — 6 битов, 64 комбинации. Из них для кодирования аминокислот используется порядка 20, но при кодировании информации, видимо, можно этим не ограничиваться и использовать все 64 комбинации
          0
          Да, верно 64, клинит. Часть триплетов — служебные, те же старт/стоп. Потом том есть дублирование консервативны первые 2 нуклеотида триплета.
            0
            Меня всегда удивляло, что при таком подсчёте человеческий геном занимает 800Мб, 1CD, обидно как-то
              0
              Все куда веселее. Реально некодирующая ДНК называется мусорной условно ее роль неясна до конца. Скажем, функциональность ферментов обусловлена не столько последовательностью аминокислот, скольку структурой, в том числе четвертичной (не у всех есть), получаемой в результате процессинга. Можно предположить что в ДНК есть некоторая мета-информация, только пока считать ее не удалось.
                0
                Какую-то мета информацию удалось обнаружить, если можно так трактовать метилирование, да только сильно ли больше информации получается даже с учётом этого?
                  0
                  Метилирование не очень хороший пример, в этой ветке речь пошла о некодирующей (белки) днк, а не в целом существующей метаинформации (есть еще модификация гистонов, также метилирование аденина рнк и тд)

                  Под мусорной(junk dna) днк раньше подразумевалась часть днк, которая не кодирует белки. У человека белки кодируются 1-2% днк, остальное или не в генах или вырезается при процессинге рнк. В некодирующей части по даннным encode до 70% днк экспрессируется. Т.н она кодирует не белки, а другие вещи. Например, microRna, влияющие на управление транскрипцией других генов. Классификация некодирующей днк довольно обширная, но в целом это плохо изучено.
                    0
                    Просто это был комментарий на последнюю фразу про мета-информацию. Говорить о "мусорной" ДНК я не стал, так как слишком много есть чего сказать на эту тему, чтобы это было можно оформить в виде комментария разумной длины
                      0
                      В том то и дело "что много что сказать". Причем у разных исследователей по разному. Отсюда и диссеры на 1 км, без четкого ответа на какой либо вопрос.
                      0
                      P.S. В тех 800Мб учитывается вся ДНК, включая "мусорную", так что я изначально её не откидывал, когда ставил вопрос, почему так "мало" информации формально получается при прямом подсчёте (если например сравнить с размером полного дистрибутива Debian).
            0
            Возможно масс-спектрометр упоминался в контексте кодирования аминокислотами, а не нуклеотидами. Вы правы, конечно же ДНК читается не масс-спектрометром, а секвенатором.
            –1
            Готов предоставить пару грамм ДНК для ЦХД за умеренную плату.

          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

          Самое читаемое