Как стать автором
Обновить

Надёжное хранение информации в ДНК (2,2 петабайта на грамм)

Время на прочтение2 мин
Количество просмотров127K


На Хабре неоднократно упоминались экспериментальные технологии записи/считывания информации в ДНК. Молекула ДНК хранит информацию в четверичной системе счисления, по количеству нуклеотидов (0 = A, 1 = T, 2 = C, 3 = G). Это компактный контейнер с плотностью записи в тысячи раз больше, чем у существующих носителей. Однако, чтобы технология перешла от научных испытаний к коммерческому использованию, требуется решить ряд проблем. Одна из них — специфика цифровой информации, в которой одни и те же биты могут многократно повторяться (CCCCCCCCCCCCCCC). Если многократно повторять один и тот же нуклеотид в молекуле ДНК, то это негативно влияет на стабильность кластера и информация может быть потеряна, даже при использовании избыточного дублирования и коррекции ошибок.

Исследователи из Европейского института биоинформатики опубликовали работу с описанием способа, как можно существенно повысить стабильность ДНК. Попросту, они предлагают отказаться от четверичной системы (Base-4) в пользу троичной (Base-3), а четвёртый нуклеотид использовать в служебных целях для разбиения длинных цепочек (CCCACCCACCCACCCACCC).



Во время эксперимента исследователи записали в ДНК почти мегабайт информации, в том числе все 154 сонета Шекспира в формате .txt, видеоролик с записью выступления Мартина Лютера Кинга продолжительностью 26 секунд, обложку журнала Bioinformatics Institute в формате .jpeg, научную работу с описанием структуры ДНК в формате .pdf, а также ещё один файл с описанием процесса кодирования. В общей сложности всё уместилось в 739 килобайт.

При переходе с Base-4 на Base-3 мы теряем 25% информационной ёмкости, но даже в таком варианте учёные сообщают об информационной плотности записи 2,2 петабайта на 1 грамм биологического материала. Эксперимент показал надёжность считывания информации 100%. Теоретически, эта схема способна масштабироваться в пределах, превышающих объёмы всей существующей цифровой информации, пишут авторы исследования.

Исходя из нынешнего технологического прогресса в области синтеза и секвенирования, носители ДНК для записи информации должны появиться в открытой продаже в течение десяти лет. Хотя ДНК позволяет хранить информацию тысячелетиями, первые коммерческие носители будут продаваться с гарантией до 50-ти лет, считают исследователи.

На сегодняшний день стоимость кодирования информации в ДНК оценивается примерно в $12400 за мегабайт, стоимость считывания — $220 за 1 МБ. В течение десятилетия цены должны упасть на несколько порядков.
Теги:
Хабы:
Всего голосов 92: ↑87 и ↓5+82
Комментарии130

Публикации

Истории

Ближайшие события

22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
2 – 18 декабря
Yandex DataLens Festival 2024
МоскваОнлайн
11 – 13 декабря
Международная конференция по AI/ML «AI Journey»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань