ДНК-хранилища: зеттабайтные архивы на века. Что уже есть сейчас? / Хабр

Сегодня объемы цифровых данных растут быстрее, чем успевают развиваться технологии их хранения. У обычных носителей ограниченный срок службы, их нужно менять и следить за работоспособностью. С ДНК все проще: сама молекула в состоянии хранить информацию веками — главное, обеспечить подходящие условия. Такая память не требует энергии и может быть прочитана даже спустя века — при наличии нужных инструментов. В статье поговорим о том, зачем вообще хранить данные в ДНК, где это нужно и что пока мешает технологии выйти за пределы лабораторий.

Почему ДНК? Преимущества и потенциал носителя

Побуду капитаном Очевидность. ДНК — молекула, которая хранит генетическую информацию живых организмов. Ее структура идеально подходит для компактного хранения данных: четыре нуклеотида (A, C, G, T) можно использовать как алфавит для кодирования битов, а плотность размещения достигает сотен петабайт в одном грамме вещества. Это намного превосходит возможности жестких дисков и ленточных накопителей. Например, вся мировая цифровая информация, включая архивы Google, Amazon и Netflix, могла бы уместиться в ДНК-хранилище размером с небольшой чемодан.

Кроме высокой плотности, ДНК обладает солидной долговечностью. Не бессмертие, но тоже ничего. При правильных условиях — защите от влаги, кислорода и ультрафиолета — молекулы ДНК могут сохранять данные десятилетиями и даже веками без потери целостности. Еще один плюс — технологическая база для работы с ДНК уже существует: секвенаторы и синтезаторы массово применяются в биологии и медицине. Это упрощает развитие хранилищ на ДНК и снижает риск зависимости от узкоспециализированных решений.

Как это работает: ключевые этапы

Технология ДНК-хранилищ включает четыре основных этапа: кодирование, синтез, хранение и секвенирование. На первом этапе цифровые данные (поток битов) преобразуются в последовательности нуклеотидов с помощью аппаратно-программного комплекса. Например, пара битов (00, 01, 10, 11) может кодироваться как A, C, G или T, обеспечивая плотность до 2 бит на нуклеотид. Для повышения надежности добавляются коды коррекции ошибок плюс учитываются ограничения, например избегание гомополимеров (повторяющихся последовательностей типа AAAA), которые затрудняют синтез и чтение.

Красивая визуализация нитей ДНК. Источник — *Красивая визуализация нитей ДНК.* *Источник*

Синтез — процесс создания молекул ДНК с заданной последовательностью. Сегодня применяются два подхода: химический, где нуклеотиды добавляются пошагово с использованием органических растворителей, и энзиматический, использующий ферменты в водной среде. Первый метод, например от Twist Bioscience, позволяет синтезировать до 500 нуклеотидов с точностью 99,5%, но ограничен длиной цепочек. Второй, его разрабатывают Ansa Biotechnologies и Molecular Assemblies, обещает большую длину и меньший уровень ошибок, но пока находится на стадии исследований. Для масштабирования синтеза применяются массивы с наноскважинами, где одновременно создаются миллионы молекул.

Хранение ДНК требует защиты от внешних факторов. Молекулы помещают в специальные контейнеры — капсулы из кремнезема или полимерные матрицы, которые предотвращают деградацию. Для извлечения данных используется ПЦР (полимеразная цепная реакция) или методы гибридизации, позволяющие выборочно получать нужные молекулы. Наконец, чтение последовательности выполняется методами, такими как секвенирование по синтезу (SBS) от Illumina или нанопоровое от Oxford Nanopore. SBS обеспечивает отличную точность (ошибки ~0,1%), но работает медленнее, тогда как нанопоры быстрее, больше неточностей (~6%).

Эти этапы уже продемонстрированы в лабораторных условиях. Например, исследователи записали короткие видео и тексты в ДНК, а затем успешно их извлекли. Однако для коммерческого применения нужно радикально увеличить скорость и снизить стоимость каждого шага.

Вызовы на пути к коммерциализации

К сожалению, ДНК-хранилища пока далеки от массового применения. Главный барьер — низкая скорость записи и чтения. Химические реакции синтеза и секвенирования занимают от секунд до часов, что в тысячи раз медленнее, чем у традиционных носителей (например, лента — 400 МБ/с, ДНК — 0,001 МБ/с). Решить проблему медленной записи можно за счет параллельной работы: если синтезировать не одну цепочку ДНК, а миллионы одновременно, скорость резко возрастает. Уже создаются платформы, где работают миллиарды «точек синтеза» сразу. По прогнозам, к 2027 году их число может достичь 100 млрд, что позволит записывать данные быстрее и приблизит технологию к практическому применению.

Схема работы ДНК-хранилища: цифровая информация кодируется в последовательности нуклеотидов (A, C, G, T), затем синтезируется в виде молекул ДНК. После хранения она считывается с помощью секвенирования и декодируется обратно в двоичный формат (источник).

Еще одна проблема — дороговизна технологии. Запись и чтение требуют сложного оборудования, дорогих реагентов и специалистов. Если в медицине считают стоимость за одну нуклеотидную «букву», то для хранения важна цена за байт. Чтобы новинка стала доступной, нужно учесть все — от расходных материалов до потребления энергии и автоматизации. Пока она подходит только для задач, где важна долговременная сохранность — например, в архивах, которые будут храниться десятилетиями.

Надежность и сохранность данных тоже вызывают вопросы. Неоптимальные условия хранения и частое извлечение могут приводить к деградации молекул. DNA Data Storage Alliance разрабатывает стандартные методы оценки стабильности, чтобы гарантировать долговечность. Кроме того, биобезопасность остается важным фактором: при кодировании данных в ДНК могут случайно получиться последовательности, схожие с ��енами опасных вирусов или токсинов. Чтобы этого не допустить, кодеки избегают таких фрагментов, а перед синтезом все цепочки сверяются с базами биобезопасности.

Перспективы и место в экосистеме хранения

По мнению экспертов, ДНК-хранилища не заменят жесткие диски или облачные сервисы, а дополнят их, заняв нишу сверхдолгосрочного архивирования. Через 3–5 лет технология может выйти на рынок для хранения критически важных данных, таких как научные архивы, культурное наследие или базы для ИИ. Компании вроде Microsoft, Illumina, Catalog работают над масштабируемыми решениями. Вот примеры их разработок.

Microsoft активно развивает технологию хранения данных на ДНК в рамках проекта DNA Storage. Компания фокусируется на создании полностью автоматизированной системы для записи и извлечения данных из синтетической ДНК, интегрируя ее в ЦОД. В 2021 году Microsoft и Университет Вашингтона продемонстрировали прототип с наноразмерным устройством скоростной записи. Цель — к концу десятилетия разработать систему для нишевых архивных приложений.

Illumina разрабатывает технологии секвенирования нового поколения, такие как NovaSeq и HiSeq, с высокой точностью (ошибки ~0,1%). Ее платформы широко используются в чтении из ДНК, что делает компанию важным игроком в экосистеме ДНК-хранилищ. Она также участвует в DNA Data Storage Alliance и помогает создавать стандарты для совместимости разных решений.

Twist Bioscience использует кремниевую платформу для синтеза ДНК — до 500 нуклеотидов с точностью около 99,5%. Компания стремится удешевить и масштабировать производство, чтобы сделать ДНК-хранилища доступнее. Она также входит в DNA Data Storage Alliance и участвует в разработке стандартов для долгосрочного хранения научных и культурных данных.

Catalog, основанная в 2016 году, создает относительно простые и недорогие ДНК-хранилища. Ее платформа Shannon кодирует большие объемы данных в компактной форме. Вместе с Seagate они работают над системой, где все химические процессы проходят на микрочипе — это сильно ускоряет работу и снижает затраты. Компания хочет, чтобы такие хранилища легко подключались к облаку.

В целом, развитие ДНК-технологий и снижение стоимости хранения данных делают их все ближе к практическому применению. А работа над общими стандартами, вроде инициатив DNA Data Storage Alliance, поможет разным компаниям создавать совместимые решения. В ближайшие годы такие хранилища могут появиться не только в лабораториях, но и в дата-центрах.

ДНК-хранилища: зеттабайтные архивы на века. Что уже есть сейчас?

Почему ДНК? Преимущества и потенциал носителя

Как это работает: ключевые этапы

Вызовы на пути к коммерциализации

Перспективы и место в экосистеме хранения

Полезные ссылки

Переход от классической интеграционной шины к интеграционной платформе нового поколения с ИИ

Почему я перестал ходить на созвоны, или MWS TeamStream в примерах

DevOps для всех. Как мы запускали внутреннее обучение в MWS для смежных ролей

ИИ нас не заменит. Но в будущее возьмут не всех

Сотовая связь в промышленности. Как и почему pLTE/5G заменяют привычные технологии беспроводной связи

Информация