Мы смогли бы хранить всё вечно

Зеттабайт — это триллион гигабайт. Это очень много, но, по одной из оценок, в этом году человечество произведёт сто восемьдесят зеттабайт цифровых данных. Данные копятся: PowerPoints и селфи; видео, снятое камерами; электронные медицинские карты; данные, извлечённые из смарт-устройств или собранные телескопами и ускорителями частиц; резервные копии и резервные копии резервных копий. Куда всё это девать, сколько и как долго хранить? Эти вопросы не дают покоя учёным-компьютерщикам, управляющим мировыми хранилищами данных. Для них облако — это не клочок тумана, а физическая система, которую нужно создавать, оплачивать и обслуживать.

Эксперты по хранению данных говорят о температурной шкале данных. На одном конце находятся «горячие» данные — Википедия или ваш банковский баланс, — которые должны появляться на экране практически мгновенно. На другом — «холодные» данные, которые могут находиться в нескольких минутах или даже днях от кончиков ваших пальцев. «Тёплые» данные, расположенные посередине, например ваши старые фотографии, могут быть получены за несколько секунд. Большинство данных — «холодные», и многие из них, вероятно, можно стереть без последствий. Однако некоторые из них могут однажды оказаться критически важными, например в уголовном деле, и их потенциальная ценность означает, что большая часть должна быть сохранена в целости и сохранности в течение неопределённого времени.

Одним из самых популярных носителей для хранения «холодных» данных является магнитная лента. Изобретённая в 1920-х годах, она постоянно совершенствовалась, удваивая ёмкость каждые пару лет. Компания Quantum, лидер в области архивных технологий, продаёт ленточные библиотеки, которые напоминают музыкальные автоматы размером с транспортный контейнер. Внутри них маленький робот извлекает данные, находя кассеты, похожие на кассеты VHS, и подключая их к дисководам, чтобы прочитать. «Сейчас в облаке работают тысячи роботов Quantum, перемещающих ваши данные», — сказал мне Эрик Бассиер, проработавший в Quantum более шестнадцати лет.

Использование лент растёт с каждым годом, отчасти благодаря голоду таких сборщиков данных, как Google. Но годовой объём данных человечества на современной магнитной ленте заполнил бы тридцать тысяч морских контейнеров. Между тем, ленты и диски со временем разрушаются. Австралийская компания Tape Ark помогает восстанавливать данные с повреждённых лент; её исполнительный директор Гай Холмс рассказал о спасении измерений лунной пыли, которые были переданы с Луны после полётов «Аполлона». Он также показал мне видео, на котором видно, как старая лента распадается при движении в устройстве чтения. «Эти маленькие чёрные вкрапления, которые вы видите слева на экране, — это документы Word и таблицы Excel, которые выпали из ленты, потому что она стала такой хрупкой», — сказал он.

Магнитная лента может показаться устаревшей технологией. Однако некоторые исследователи, ищущие ей замену, стали склоняться к ещё более древней альтернативе. Миллиарды лет назад эволюция наткнулась на ДНК в качестве носителя информации. Перевод единиц и нулей компьютера в основания генетического материала (A, C, T и G) имеет ряд преимуществ. Во-первых, на теоретическом пределе молекулы ДНК могут хранить до миллиарда гигабайт на кубический миллиметр — плотность, при которой в объём нескольких кунжутных семечек можно уместить целый контейнер кассет. Во-вторых, правильно подготовленные нити ДНК могут надёжно храниться тысячи лет: самому старому сохранившемуся образцу ДНК два миллиона лет, и он всё ещё читаем. И, наконец, ДНК не устаревает. Благодаря её важности для наук о жизни и для функционирования нашего собственного тела у нас, скорее всего, всегда будут инструменты для чтения написанного.


Советский физик Михаил Самойлович Нейман предложил идею использования ДНК для хранения данных в 1964 году, примерно через десять лет после того, как Джеймс Уотсон, Фрэнсис Крик и Розалинд Франклин впервые разметили двойную спираль. Однако создать настоящую систему хранения данных на основе ДНК оказалось непросто. Сначала учёные должны решить, как математически закодировать нули и единицы в основаниях ДНК. (Вариантов тут масса). Затем они должны изготовить цепочки этих оснований на заказ. Затем они должны безопасно хранить, извлекать и считывать эти цепочки, и, наконец, преобразовывать их обратно в биты. Первая демонстрация технологии состоялась в 1988 году, когда художник Джо Дэвис создал фигурку из палочек, которую назвал Microvenus. Дэвис использовал схему кодирования, чтобы перевести изображение размером пять пикселей на семь в последовательность из восемнадцати оснований. С помощью лаборатории Гарварда он ввёл ДНК в бактерию E. coli, которая смогла сохранить и воспроизвести сообщение. Исследователям удалось прочитать его через два года. В 2007 году другая группа совершила аналогичный подвиг, закодировав «E=mc^2 1905!» в бактериальном геноме.

В 2010 году биолог Крейг Вентер, сыгравший ключевую роль в секвенировании генома человека, вместе с коллегами создал синтетический бактериальный геном, на который они нанесли «водяной знак», закодировав текст, включающий их собственные имена и цитаты Джеймса Джойса и Ричарда Фейнмана. Прежде чем они опубликовали свою работу в журнале Science, один из рецензентов, новаторский гарвардский генетик Джордж Чёрч, в шутливой форме отправил свои комментарии редактору статьи, закодированные в ДНК. Этот опыт заинтересовал Чёрча, и в 2012 году он и двое его коллег успешно сохранили в ДНК около шестисот пятидесяти килобайт данных — примерно в семьсот раз больше предыдущего рекорда. Данные содержали компьютерную программу и черновик книги Чёрча «Регенезис: как синтетическая биология изменит природу и нас самих». В телепрограмме «Отчёт Кольбера» Чёрч вручил Стивену Кольберу точку с ДНК, содержащим двадцать миллионов копий его книги; Кольбер сделал вид, что пытается её съесть.

В 2018 году компания Microsoft в своей статье заявила, что сохранила в ДНК двести мегабайт данных, включая музыкальный клип, базу данных семян в Шпицбергенском глобальном хранилище семян и «Всеобщую декларацию прав человека» на более чем ста языках. «Каждая IT-компания сталкивается с проблемами хранения данных», — сказала мне Карин Штраус, один из старших авторов статьи; исследователи задались вопросом, может ли хранение данных в ДНК предложить практическое решение. Их работа включает в себя форму коррекции ошибок и тип памяти с произвольным доступом (RAM). Если вы хотите найти в энциклопедии слово «зебра», вам не придётся перелистывать весь алфавит; вы хотите сразу перейти к букве «З». Для этого команда включила в ДНК последовательности оснований, которые выполняли функцию идентификационных меток.

Технология вдруг стала казаться практически осуществимой. Вскоре организация Intelligence Advanced Research Projects Activity (IARPA) запустила программу Molecular Information Storage (MIST) и выделила пятьдесят миллионов долларов в виде грантов на дальнейшее развитие технологии. В 2020 году Microsoft и другие компании основали Альянс по хранению данных ДНК. «Мы считаем, что, вероятно, в течение следующего десятилетия править балом будет магнитная лента, — сказал мне Бассиер, бывший сотрудник компании Quantum. — Но мы думаем, что хранение данных на основе ДНК имеет большие долгосрочные перспективы».


Одна из самых больших проблем при хранении ДНК — это собственно изготовление ДНК, известное как синтез. Самый распространённый метод медленный: он добавляет основания по одному за раз. Представьте себе одну машинистку, которая вводит данные буква за буквой; чтобы увеличить скорость, вам потребуется много машинисток, которые могут работать параллельно. Готовясь к работе в 2018 году, исследователи Microsoft заказали ДНК у компании Twist, которая разработала кремниевый чип площадь�� примерно с карманную книгу. Он способен одновременно создавать миллион различных последовательностей ДНК. По словам Эмили Лепруст, генерального директора и соучредителя компании, сейчас Twist работает над созданием чипа, который сможет кодировать на три порядка больше данных. Цель состоит в том, чтобы записывать ДНК с потрясающей скоростью и в огромных масштабах.

В 2022 году я посетил Catalog, стартап из Бостона, который использует другой подход к написанию ДНК. В большом помещении бывшей кондитерской фабрики Schrafft's компания Catalog построила машину, которую назвала Shannon, в честь Клода Шеннона, одного из первых новаторов теории информации. Версия Shannon, которую я видел, выглядела как высокотехнологичный печатный станок из нержавеющей стали; сейчас компания завершает работу над коммерческой версией, которая будет размером с большую фотобудку. Пока я наблюдал, сотни струйных сопел наносили крошечные капельки основы на длинный лист прозрачного пластика, который двигался от одного конца к другому. Основания были соединены вместе в блоки, называемые олиго, которые больше похожи на слова или предложения, чем на буквы. Shannon напечатала их коллекцию, а затем добавила фермент, который соединил их в эквивалент абзацев. Лист прошёл зигзагом через инкубационную камеру, затем через инструмент, который выдавливал капли ДНК в пробирку — архив данных. Это было похоже на жёсткий диск в жидком виде.

Я держал в руках пластиковый лист, на котором капли высыхали. Он имел лёгкий оранжевый оттенок из-за добавленного красителя. Присмотревшись, я увидел тысячи крошечных точек. В другой соседней лаборатории Хенджун Парк, исполнительный директор Catalog, передал мне маленький пузырёк с капелькой жидкости, в которой хранилось множество копий восьми пьес Шекспира. Возможно, будущее данных — это не дата-центр с его гудящими серверами и мигающими лампочками, а влажная лаборатория с мензурками и аварийным душем.

Система Catalog — это не только механический, но и математический вызов: схема кодирования, которую использует компания, не совсем интуитивна. Свапнил Бхатиа, инженер Catalog, провёл час за доской, помогая мне разобраться в основах. Я узнал, что система может использовать сотни оснований для представления одного бита информации, но то, что она теряет в плотности данных, выигрывает в скорости и дешевизне записи. Пока всё хорошо. Но затем Бхатия перешёл к более сложной теме. Компьютер на основе ДНК мог бы выполнять вычисления, но с данными, хранящимися в пробирках.

Бхатия объяснил простую форму обработки: поиск слова в тексте. Это можно сделать химическим путём, не переводя основания обратно в биты. Возможно, что и другие виды вычислений — например сравнение баз данных или поиск закономерностей в радиосигналах — могут выполняться с использованием данных в форме ДНК, требуя гораздо меньше энергии, чем аналогичная операция на суперкомпьютере на основе кремния. «Я просто думаю о ДНК как о структуре данных, созданной природой, — говорит Бхатия. — Мы просто заимствуем её». Я представлял себе клетки своего тела не как компоненты органов, а как форму обработки информации, которая стирает грань между химией и вычислениями. Мозг можно назвать «мыслящим мясом» — впрочем, как и всех нас.


В правильных условиях ДНК может сохраняться тысячелетиями, а в неправильных — разрушаться. Простой способ защиты — поместить ДНК в соединение, изолирующее её от воды, кислорода, радиации, ферментов, микробов и т. п.; впоследствии это соединение можно растворить. Или вы можете обезвожить ДНК, превратив в порошок и спрятать его в стальные капсулы с вакуумной герметизацией. (В январе Catalog и Asimov Press выпустили антологию эссе и научной фантастики в виде бумажного тома и капсулы с высушенной ДНК — первое коммерческое издание такого рода). Высушенная ДНК, похоже, имеет долгий срок хранения. В сентябре прошлого года исследователи из Microsoft и других компаний сообщили, что они поместили два закодированных в ДНК файла — карту мира и изображение космического шаттла — в ускоритель частиц. ДНК подверглась такой нейтронной бомбардировке, с какой она столкнулась бы, пролежав в Нью-Йорке 4,4 миллиона лет. Файлы остались нетронутыми.

Стартап под названием Cache DNA использует другой подход: хранит ДНК в крошечных прозрачных сферах. Компания Cache выросла из лаборатории Марка Батэ, инженера-биолога из Массачусетского технологического института. Сначала Батэ и его команда помещали «файлы» ДНК в кварцевые шарики диаметром в десятую часть человеческого волоса (с тех пор они научились использовать полимеры, которые безопаснее и удобнее). В лаборатории Батэ также решили прикрепить одноцепочечные ДНК-«штрих-коды» к внешней стороне каждого шара. Бусины с изображением пятнистой кошки имели метки «кошка», «оранжевый» и «домашний»; бусины с тиграми имели метки «кошка», «оранжевый» и «дикий». Команда смогла отличить одно изображение от другого, используя химические вещества, которые заставляли светиться только определённые метки.

В МТИ Батэ и один из его сотрудников, Джозеф Берлеант, показали мне несколько хранящихся в лаборатории ДНК. Берлеант протянул мне две маленькие пробирки. В одной были капсулы с изображениями львов, тигров и домашних кошек. В другой были иные изображения: самолёт, фрукты и так далее. Он добавил в каждую пробирку флуоресцентные кошачьи «зонды», оставил их на ночь, а затем центрифугировал «несвязанные» зонды, которые не прикрепились к бусинам.

Мы надели тонированные очки, и он поднёс две пробирки к специальной лампе. Только флакон с кошкой светился розовым. Джеймс Банал, соучредитель Cache, предположил, что во время пандемии сотрудники аэропорта могли бы помечать вирусную РНК из носовых мазков возрастом пассажиров и рейсами, которыми они летели. Позже учёные смогут найти РНК нового варианта и отследить его до источника. В прошлом году команда продемонстрировала модель этой системы.


Есть два способа представить себе будущее хранения данных ДНК. Один из них — представить его как сегодняшние системы хранения данных, только более плотные, влажные и выносливые. Дэвид А. Марковиц (David A. Markowitz), запустивший программу IARPA MIST, представляет себе систему, которая в ближайшем будущем сможет за день и за тысячу долларов записать терабайт данных, произвольно получить доступ и прочитать десять терабайт данных и при этом поместиться на столе. Это «амбициозный проект», — сказал он. Тем временем «Альянс по хранению данных ДНК» стремится проводить исследования рынка, просвещать общественность и разрабатывать технические спецификации, чтобы архивы ДНК были совместимы. (Они хотят избежать противостояния, подобного тому, в котором участвовали Blu-ray и DVD высокой чёткости). Штраус из Microsoft сказала мне, что она может представить себе, как компания использует ДНК для своих облачных сервисов.

Ещё один способ представить себе хранение данных в ДНК — переосмыслить данные на базовом уровне — так, чтобы открыть новые возможности, позволив информации существовать в новых местах. Батэ представляет, как компании наносят водяные знаки на лекарства, чтобы отслеживать таблетки; Чёрч, генетик, разработал методы, которые позволят клеткам записывать данные в их так называемой «мусорной ДНК» — материале, который находится между генами и составляет большую часть генома. (Клетки понимают, что не нужно пытаться превращать мусорную ДНК в белки). Такая система может действовать как «бортовой самописец», сказал мне Чёрч, то есть данные о работе организма могут быть восстановлены в случае сердечного приступа или рака. Возможно, сказал он, визуальные данные можно будет записывать в клетки сетчатки глаза мухи, «превращая насекомое в видеокамеру». Возможно, молекулярные компьютеры, которые разрабатывают другие исследователи, будут записывать данные в клетки.

Сможем ли мы записывать данные в свои геномы, передавая их по наследству, когда у нас появятся дети? Некоторые учёные, в том числе Фрэнсис Крик, предполагают, что инопланетяне или древние цивилизации могли вставлять сообщения в мусорную ДНК людей или других животных. В 1999 году компьютерный учёный Джарон Ланье представил капсулу времени, в которой можно сохранить человеческие знания, вставив их в геномы тараканов. Если выпустить такую капсулу на свободу на Манхэттене, её можно было бы «легко обнаружить и невозможно уничтожить», — писал он. Батэ сказал мне, что мы могли бы сохранить запись наших достижений в ДНК, а затем разбросать её по всей Солнечной системе.

В каком-то смысле ДНК в наших телах ничего и никогда не забывает. Даже если она мутирует и рекомбинирует, мы всё равно можем проследить её родословную на миллиарды лет назад. Если бы мы использовали ДНК для вечного хранения информации, что это могло бы означать для на��его общества? Сегодня мы находим археологические остатки ранних цивилизаций — инструменты, таблички, памятники — и по ним догадываемся, каково было их существование. Но ещё через пару десятилетий мы сможем использовать биологию для хранения каждого пикселя с каждой камеры, каждой цифры из каждого научного наблюдения, каждой мысли, статистики или транзакции.

Звучит ли это утопично или антиутопично, но большую часть человеческой жизни можно увековечить в облаке ДНК — или озере. Данные не будут накапливаться, как копии журналов; напротив, благодаря химическим вычислениям можно будет вести тонкий поиск и анализ этой информации. Двойная спираль, которая эволюционировала, чтобы сохранить лучшее из того, что предлагает природа, будет призвана сохранить лучшее, что можем предложить мы — и худшее, и всё, что в промежутке.