В скором времени человечество будет генерировать так много данных, что привычные хранилища перестанут справляться. Чтобы решить эту проблему, ученые обратились к практически безграничному природному вместилищу информации – ДНК. По мнению исследователей, ДНК – идеальная среда для хранения, поскольку она ультра-компактная и может сохранять свои свойства сотни тысяч лет, если обеспечить соответствующие условия хранения. Об этом свидетельствует недавнее восстановление ДНК из костей 43-тысячелетнего предка человека, найденного в пещерах Испании.
В новом исследовании ученые из Колумбийского университета и Нью-Йоркского центра генома (NYGC) продемонстрировали, что алгоритм, предназначенный для стриминга видео на смартфоне, может практически полностью раскрыть потенциал ДНК в хранении и сжатии дополнительной информации в четырех нуклеотидных основаниях.
Идея и общие соображения о возможностях записи, хранения и поиска информации в молекулах ДНК принадлежат Михаилу Нейману – советскому ученому-физику. В 1964 году в журнале «Радиотехника» был опубликован материал, в котором описывалась технология этого процесса и устройство хранения данных – олигонуклеотиды Неймана (MNeimON).
В 2012 году генетикам из Гарвардского университета удалось закодировать черновик книги из 53,4 тысяч слов, 11 изображений и одну программу. Они выяснили, что в каждом кубическом миллиметре ДНК можно сохранить 5,5 петабайт данных. Год спустя исследователям Европейского института биоинформатики удалось сохранить, а затем полностью извлечь и воспроизвести около 0,6 мегабайт текстовых и видео-файлов: 154 сонета Шекспира, фрагмент знаменитого выступления Мартина Лютера Кинга «У меня есть мечта» длиной 26 секунд, научная работа о структуре ДНК Джеймса Уотсона и Фрэнсиса Крика, фотографии штаб-квартиры EBI в Хинкстоне и файл, описывающий методы преобразования данных. Все файлы ДНК воспроизводила с точностью, варьирующейся между 99,99% и 100%.
Янив Эрлих (Yaniv Erlich) и его коллега Дина Зелински (Dina Zielinski), научный сотрудник NYGC выбрали шесть файлов для кодирования и записи в ДНК – компьютерную операционную систему KolibriOS, французский фильм 1896 года «Прибытие поезда на вокзал Ла-Сьота», код 50-долларовой подарочной карты Amazon, компьютерный вирус, изображения с пластинок «Пионера» и исследование Клода Шеннона в области теории информации 1948 года.
Ученые собрали эти файлы в один, а затем поделили данные на короткие строки двоичного кода. С помощью фонтанных кодов, они случайным образом упаковали строки в «капли» фонтана – блоки и конвертировали сочетания 00, 01, 10, 11 в четыре нуклеотидных основания: аденин (А), цитозин (С), гуанин (G) и тимин (Т). Чтобы затем собрать эти блоки воедино, команда ученых добавила метки для каждой «капли».
Всего исследователи сгенерировали около 72 тысяч таких цепочек ДНК, каждая из которых содержала в себе приблизительно 200 оснований. Они собрали эту информацию в текстовый файл и отправили его в Сан-Франциско, где стартап Twist Bioscience, занимающийся синтезом ДНК, превратил цифровые данные в биологические. Две недели спустя команда Эрлиха получила пробирку с молекулами ДНК.
Используя технологии секвенирования для чтения нитей ДНК и специальное ПО для перевода генетического кода обратно в двоичный файл, они успешно восстановили файлы. Сколько занимает чтение и запись, ученые пока не уточняют.
Группа исследователей, возглавляемая Эрлихом, также продемонстрировала, что ее алгоритм, умножая образец ДНК с помощью полимеразной цепной реакции, может сгенерировать и безошибочно восстановить практически неограниченное количество копий образца, и даже копий его копий.
Эрлих запускает операционную систему на виртуальной машине и играет в «Сапера»
Однако самым впечатляющими возможностями алгоритма оказалась способность разместить 215 петабайт данных в одном грамме ДНК – в 100 раз больше, чем удалось достигнуть при помощи других методов и алгоритмов.
Емкость хранения данных ДНК теоретически ограничена двумя цифрами для каждого нуклеотида, а также биологическим устройством ДНК. Кроме того, чтобы собрать и прочитать записанные фрагменты, требуется включить дополнительную информацию, что впоследствии снижает емкость до 1,8 двоичных символов в нуклеотиде. Алгоритм «фонтан ДНК» позволяет разместить в среднем 1,6 бит в каждом нуклеотиде – это на 60% больше, чем удавалось ранее, а также близко к пределу в 1,8 бит.
Главным препятствием на пути широкого распространения технологии остается ее стоимость. Исследователи потратили 7 тысяч долларов, чтобы синтезировать ДНК и заархивировать 2 мегабайта данных, и еще 2 тысячи, чтобы расшифровать ее. И хотя стоимость секвенирования ДНК постепенно снижается, то ее синтез все еще обходится в круглую сумму. Инвесторы не готовы вкладывать тонны денег только ради того, чтобы синтез упал в цене.
Эрлих и его команда предлагают другой способ решения проблемы: снизить цену на синтез ДНК можно, если производить молекулы более низкого качества, а затем использовать стратегию кодирования по типу «фонтана ДНК», чтобы исправить молекулярные ошибки.
Научная работа опубликована в журнале Science 3 марта 2017 года
DOI: 10.1126/science.aaj2038