«Принцип макарон»: ученые организовали произвольный доступ к ДНК-памяти

    Ученым из Иллинойсского университета в Урбане-Шампейне удалось реализовать ДНК-хранилище со случайным (произвольным) доступом к данным. Об их подходе и о том, что общего у цепочек ДНК с макаронами, расскажем далее.


    / фото Tim Sackton CC

    Как это работает


    Для хранения данных в ДНК учёные преобразуют бинарный код в последовательности из четырёх азотистых оснований — аденина (A), тимина (T), гуанина (G) и цитозина (С). После они синтезируются в короткие цепочки, перекрывающие друг друга. Например, если цепочки состоят из ста пар оснований, то последние 75 пар из предыдущей цепочки будут первыми для следующей.

    По этой причине получение доступа к произвольным «точкам в памяти» вызывает определенные сложности. Приходится расшифровывать весь объём информации для получения одного файла. Выбрать среди множества молекул необходимую, это все равно, что пытаться выловить конкретную макаронину из супа. Вероятность произвольно схватить ее невелика.

    Однако ученые из Иллинойсского университета нашли решение. Если реплицировать одну и ту же макаронину снова и снова до тех пор, пока тарелка не заполнится, то любая из них будет нужной. Потому они решили синтезировать закодированные цепочки с дополнительными последовательностями, которые бы выступали в качестве адреса.

    Эти адреса используются праймерами для идентификации цепочек ДНК, которые нужно реплицировать. В результате ученые получили возможность определять и воспроизводить цепи ДНК с необходимыми данными, используя метод полимеразной цепной реакции. Это упрощает процесс поиска копии желаемой цепочки.

    Сейчас ученые должны преодолеть ряд трудностей. Часть из них связана с особенностями работы секвенсоров. Они подвержены воздействию ошибок замещения — оказалось сложно восстановить геном после того, как он был разбит на отдельные компоненты для чтения, и не перепутать сегменты. Потому сейчас ведется работа над «кодами корректировки ошибок».

    Другая сложность — компании, которые занимаются синтезом ДНК, пока не готовы переходить на новые методы работы, так как их производственные процессы автоматизированы, и перестраивать их для генерации дополнительных цепочек слишком дорого. Поэтому исследователям еще предстоит провести определенную работу, направленную на удешевление всех операций.


    / фото University of Michigan CC

    Кто еще занимается ДНК-хранилищами


    Microsoft совместно с Вашингтонским университетом тоже работают над созданием ДНК-хранилища с произвольным доступом (мы писали об этом в одном из наших предыдущих материалов). И в начале года им удалось закодировать и безошибочно восстановить более 400 Мбайт данных. В дальнейшем объем хранилища планируется увеличить до 1 Тбайт и больше, а в Microsoft даже строят планы по добавлению ДНК-хранилища в свою облачную платформу.

    Также в этой области работают ученые из Гарварда. Им удалось записать в бактерию анимацию с наездником на лошади, сонеты Шекспира, а один из исследователей — Джордж Черч (George Church) увековечил в ДНК свою книгу «Regenesis» (он создал 90 млрд её экземпляров).

    Для записи и считывания информации биологи использовали систему CRISPR. Эта система — естественный защитный механизм, с помощью которого бактерии создают иммунитет к вторжению вирусов. Они захватывают молекулы ДНК вирусов, генерируют так называемые спейсеры и «вставляют» их локус. Ученые закодировали желаемую информацию в спейсеры и передали её бактериям под видом вирусной ДНК.

    Когда наступит ДНК-будущее?


    Несмотря на успех всех упомянутых экспериментов, ученые пока не могут поставить технологии «на поток» (в основном из-за высокой стоимости). Потому об их выходе на широкий рынок пока говорить не приходится.

    Однако уже сегодня есть коммерческие компании, которые предлагают своим клиентам услугу записи информации в ДНК. Например, стартап Twist Bioscience «консервирует» пользовательские данные за 100 тысяч долларов (12 мегабайт). При этом руководство компании прогнозирует, что через пару лет стоимость записи снизится всего до 10 центов.

    В Twist Bioscience синтезом ДНК-цепочек занимается специальная машина, внешне напоминающая струйный принтер. Она «выдавливает» молекулы A, T, G и C в 9,6 тыс. «нанолунок» диаметром с человеческий волос. Эти крошечные лунки расположены на пластине из черного кремния размером с почтовую открытку. Всего в Twist Bioscience синтезируют около 3 млн цепочек в день.

    Другой пример: британская трип-хоп группа Massive Attack в качестве подарка на свое двадцатилетие решила сохранить третий студийный альбом Mezzanine в ДНК. Кодированием музыкального наследия займутся сотрудники лаборатории в Цюрихе. Результат их работы должен появиться через месяц.



    P.S. Несколько постов из Первого блога о корпоративном IaaS:


    P.P.S. Другие материалы из нашего блога на Хабре:

    ИТ-ГРАД 363,95
    vmware iaas provider
    Поделиться публикацией
    Комментарии 8
    • 0
      Честно говоря, не понял ни что значит «перекрывающие друг друга», ни в чём заключается решение, позволившее осуществить произвольный доступ.
      • 0

        Например, есть некая условная ДНК (для удобства разбиты по четыре основания)
        AATT-AGAC-TAGA-CAAC
        её разбивают на три час


        AATT-AGAC
        -----AGAC-TAGA
        ----------TAGA-CAAC

        каждый из кусков синтезируют в свою "тарелку с макаронами" в достаточном количестве. И в нужный момент дают доступ к интересующей тарелке.

        • 0
          что значит «тарелку с макаронами»?
          • 0
            Видимо колба с рабочим раствором или может чашка Петри. Физический контейнер то бишь. Если я правильно понял конечно.
      • –1
        > со случайным доступом к данным
        Random access — это «произвольный доступ», а не случайный :)
      • 0
        Как человеку, далёкому от всего этого: то есть в моей крови сейчас может «плавать» «Война и Мир»?

      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

      Самое читаемое