От флешек к ДНК: разбираемся в новой технологии хранения данных
В ближайшие три года общее количество цифровых данных увеличится в три раза и достигнет 175 миллиардов терабайт. Надежно сохранить такое количество информации на жестких дисках и магнитных лентах будет практически невозможно, строительство дата-центров тоже не спасет ситуацию, поэтому ученые сейчас активно работают над технологией хранения данных в ДНК.
В этой статье мы расскажем, что из себя представляют ДНК-накопители, в чем их преимущества и недостатки, и по шагам разберем, как информацию сохранять в молекуле и извлекать из нее.
Что такое ДНК-накопители
ДНК-накопители данных — технология, которая использует молекулу ДНК для хранения данных. Один грамм ДНК может хранить в себе до 215 миллионов гигабайтов данных. В 2019 году ученые из американского стартапа Catalog оценили потенциал подхода и закодировали 16 GB текста англоязычной Википедии в синтетическую ДНК.
В будущем, когда технология станет массовой, ДНК сможет заменить флешки, жесткие диски, магнитные ленты и другие накопители, которые занимают много места, быстро выходят из строя и не позволяют хранить информацию несколько сотен лет.
Преимущества технологии
Большая плотность хранения. Плотность хранения ДНК в 1009 раз больше, чем на жестком диске, и это еще не предельная потенциальная вместимость.
Долгое хранение. От температуры окружающей среды зависит срок хранения данных. Так, при плюсовой температуре молекула сохранится 2 000 лет, а при -20°C — 2 000 столетий.
Постоянство строения ДНК. Технологии со временем устаревают, в отличие от строения молекулы ДНК, которое не меняется уже 3 млрд лет.
Экологичность. Серверы оставляют углеродный след, а для функционирования ДНК не нужно электричество, поэтому технология практически не влияет на экологию.
Недостатки технологии
Высокая стоимость. Стоимость загрузки одного мегабайта составляет примерно $1, но к 2030 году стоимость хранения данных ДНК может упасть до $1 за терабайт.
Низкая скорость загрузки. Сейчас скорость загрузки данных низкая, но ученые уже создали прототип ДНК-чипа, который сможет записывать до 20 Гб в день.
Низкая скорость поиска. Поиск информации в ДНК занимает много времени, но с помощью химического метода ученые планируют ускорить процесс в тысячу раз.
Большой размер устройства. Устройство Shannon от Catalog занимает площадь небольшой комнаты. Сейчас ученые работают совместно с компанией Seagate, чтобы уменьшить его размеры и создать «лабораторию на чипе».
Как информация хранится в ДНК
Цифровые данные, которые хранятся в компьютере, зашифрованы в виде последовательностей из нулей и единиц. Чтобы записать данные на ДНК, необходимо перевести их из двоичной системы в четверичную, выстроить в цепочку и перенести в молекулу. Подробнее о процессе рассказали ниже.
Преобразование данных
Первый шаг включает преобразование исходных данных, которые обычно представлены в двоичной форме (состоят из 0 и 1), в формат, который может быть представлен в ДНК. В ДНК четыре основания: аденин (A), цитозин (C), гуанин (G) и тимин (T). Один из распространенных подходов заключается в том, чтобы сопоставить каждые два бита двоичных данных с одним из четырех оснований ДНК. Например, можно использовать A для обозначения 00, C — для 01, G — для 10 и T — для 111.
Синтез ДНК
После того как данные преобразованы в последовательность оснований ДНК, необходимо создать соответствующие молекулы ДНК. Это делается с помощью синтеза ДНК, который включает химическое «строительство» молекулы ДНК по одному основанию за раз. Этот процесс осуществляют с помощью специальных машин — синтезаторов ДНК. Последовательность создается в соответствии с порядком A, C, G и T, который был определен на этапе преобразования данных.
Хранение данных
После того как молекулы ДНК синтезированы, их можно хранить. Молекула ДНК плотная и стабильная, что позволяет хранить в ней огромное количество данных на маленьком пространстве. Она также устойчива ко многим проблемам, которые могут разрушить традиционные формы хранения данных, такие как магнитные или оптические носители. При условии хранения ДНК в контролируемой среде (например, при низкой температуре) данные могут сохраняться от сотен до тысяч лет.
Извлечение данных
Извлечение данных из ДНК — это, по сути, обратный процесс преобразования. ДНК секвенируется путем синтеза (SBS), который считывает последовательность A, C, G и T в ДНК. Затем эта последовательность преобразуется обратно в двоичный формат и воссоздает исходные цифровые данные.
Современные технологии секвенирования ДНК занимают длительное время для считывания данных, поэтому хранение данных ДНК в настоящее время больше подходит для долгосрочного архивного хранения, а не для данных, к которым необходимо часто обращаться.
Коррекция ошибок
В процессе синтеза и секвенирования могут возникать ошибки, например, пропущенные или лишние основания. Для решения этой проблемы исследователи разработали алгоритмы коррекции ошибок, которые позволяют выявлять и исправлять их. Например, избыточность (хранение нескольких копий данных) и проверка на четность (добавление дополнительных «контрольных» битов, которые можно использовать для проверки точности данных).
Перспективы технологии хранения данных в ДНК
Рынок разработок в области цифровой ДНК-памяти в прошлом году достиг $105,5 млн и, по прогнозам, будет расти на 69,8% в год. Исследованиями в этой области занимаются технологические компании, такие как GenomTech, HelixWorks и Catalog Technologies, научные институты и даже Агентство национальной безопасности США.
В 2023 году российский ученый Максим Никитин из Московского физико-технического института (МФТИ) сделал открытие, которое вращается вокруг идеи молекулярной коммутации. Этот эффект позволяет регулировать функции генов с колоссальным разнообразием.
Молекулярная коммутация может произвести революцию в области хранения данных в ДНК, предоставив новый механизм для хранения и извлечения информации. Это потенциально может повысить эффективность хранения данных ДНК, сделать его более коммерчески жизнеспособным и ускорить его внедрение.
Уже сейчас можно говорить, что потенциал ДНК-накопителей огромен. Если бы все когда-либо созданные фильмы были отформатированы в ДНК, они могли бы уместиться в объеме, меньшем, чем кубик сахара. Хотя технология все еще находится на стадии разработки, хранение данных ДНК может стать массовым уже через пять лет, то есть примерно к 2028 году.