Корпоративные решения для синхронизации, резервного копирования и безопасного обмена файлами легко позволяют отправлять большие данные в облако. Но что, если нам необходимо собрать и сохранить грандиозный объем данных — например, записать историю человеческой цивилизации? Как это сделать, насколько надежны цифровые носители, есть ли конкурентноспособные альтернативы?
Сегодня поговорим о проектах, посвященных созданию массивных архивов и бэкапов, и роли систем ИИ в подобных задачах.
Хрупкость информации
Вероятно, одной из первых попыток аккумулировать большой объем знаний в одном месте была античная Александрийская библиотека. Попыткой, к сожалению, неудачной. Считается, что в здании случился сильный пожар, уничтоживший значительную часть литературы. Хотя, по мнению историков, у нас нет достоверных документов, подтверждающих это событие, оно стало символом значимости сохранения информации.
Информация на современных носителях — которые с технологической точки зрения далеко ушли от легко воспламеняемого папируса — тоже может быть утрачена. Так, накопители сталкиваются с проблемой устаревания файловых форматов и программ для их чтения. Однако специалисты из Университета Карнеги — Меллона уже предпринимают попытки решить эту проблему. Они запустили проект Olive и сохраняют софт вместе с исполняемым окружением в виде виртуальной машины, чтобы обеспечить долгосрочную совместимость.
Например, исследователи записали в архив компьютерную игру Mystery House, легендарный DOOM 1993 года и раннюю версию программы для обработки текстов WordPerfect. Но развитие подобных проектов тормозят вопросы, связанные с лицензированием. Авторские права на старые тайтлы могут переходить от компании к компании на протяжении долгих лет, и не каждая из них с готовностью дает разрешение на презервацию.
9-дорожечный ленточный накопитель из коллекции Музея истории компьютеров. Источник
Помимо форматов файлов, очевидно, устаревать могут и сами накопители. В этом случае перенос данных на более современные хранилища становится нетривиальной задачей. Например, с ней столкнулась лаборатория PARC — так назывался исследовательский центр Xerox — в конце XX века. В 1970 годах инженеры разрабатывали оборудование и программное обеспечение для «офиса будущего». Сотрудники спроектировали собственные компьютеры — Alto и Dorados, которые писали бэкапы на 9-дорожечные ленты.
Восьмимиллиметровые кассеты. Источник
Но к концу 1980-х в лаборатории отказались от собственных вычислительных систем и перешли на мейнстримные устройства компании Sun Mycrosystems. Следом им пришлось мигрировать данные на новые накопители — восьмимиллиметровые кассеты. Что интересно, на этом одиссея архивных данных PARC не закончилась. Впоследствии инженеры перенесли их на DVD-ROM и подарили Музею компьютерной истории.
Также стоит отметить, что при продолжительном хранении цифровых данных нужно учитывать достоверность сведений, отслеживать историю изменения файлов. Это особенно важно для научной сферы. Новые открытия редко становятся заслугой одного исследователя и часто основываются на достижениях прошлого. По этой причине ученому сообществу нужен доступ к архивам, чтобы строить и проверять новые гипотезы без необходимости повторять эксперименты предшественников.
Наконец, приоритетным аспектом архивации данных также является контекст. Здесь имеется в виду любая дополнительная информация, которая поможет понять назначение файлов. Как отмечают специалисты благотворительной организации Digital Preservation Coalition, которая занимается вопросами сохранения цифровых данных, в отсутствии контекста даже самый ценный свод данных в перспективе может оказаться бесполезным.
Передать знания потомкам
Хранилище знаний в соляной шахте (Австрия, Гальштат). Источник
Чтобы решить недостатки хранения информации, человечество ищет новые способы сберечь знания для следующих поколений. Так, австрийский энтузиаст Мартин Кунце основал проект Memory of Mankind (MoM), чтобы сформировать полное и беспристрастное описание человеческой цивилизации и поместить его на надежный носитель.
Для воплощения своей задумки Кунце использует керамические плитки толщиной в один миллиметр, упакованные в тонкую стеклянную оболочку. Он утверждает, что природный материал гораздо долговечнее цифровых носителей.
Объемы современных хранилищ постоянно увеличиваются, а значит, требуется все больше энергии для их обслуживания. По его мнению, такой подход ведет в тупик — наступит момент, когда поддержание электронных архивов станет нерентабельным. Расходы придется сокращать и одновременно с этим жертвовать каким-то файлами.
Хранилище с табличками MoM расположили в Австрийских Альпах. Через несколько столетий вход в него закроют скалы и образуют природную «капсулу времени».
Однако проект Memory of Mankind не первый в своем роде — попытки переизобрести физический носитель информации предпринимались и раньше.
Розеттский диск под стеклянной полусферой. Источник
Однако проект Memory of Mankind не первый в своем роде — попытки переизобрести физический носитель информации предпринимались и раньше. Наиболее известный пример — проект «Розетта», названный в честь египетской археологической находки XVIII века — розеттского камня, который содержит надписи на трех языках (двух вариациях древнеегипетского и древнегреческого).
С 1999 по 2007 годы организация Long Now Foundation, которая курирует проект «Розетта», создала несколько дисков из никеля и титана с копиями полутора тысяч языков мира и инструкциями к их прочтению. Чтобы изучить 13 тыс. микространиц, нужен электронный микроскоп с силой увеличения в 750 раз.
Диск Lunar Library. Источник
Что интересно, подобные резервные копии, хранят не только на Земле, но и отправляют в космос, что обеспечить сохранность архивов для потомков. Так, проект Lunar Library содержит более 200 Гбайт информации, включая английскую версию Википедии, генетические карты, музыку, детские рисунки и тексты на большинстве языков мира. Поскольку архив предназначался для отправки на Луну, все это находится на 25 никелевых дисках толщиной 40 микрон (0,04 мм). Их срок жизни исчисляется шестью миллионами лет.
По словам одного из руководителей Lunar Library, цель проекта — помочь будущим поколениям избежать ошибок прошлого. К сожалению, аппарат с Lunar Library на борту потерпел крушение на поверхности Луны за несколько секунд до приземления. Но есть вероятность, что архив все-таки пережил катастрофу.
Техника для чтения
За время письменной истории человечество скопило большие объемы рукописных и печатных текстов. Чтобы продлить жизнь нашему наследию, государственные и научные организации стремятся перенести их из мира физического в виртуальный. Одна из инициатив по цифровизации исторических документов принадлежит ЮНЕСКО. Еще в 1992 году они запустили программу Memory of the World, чтобы препятствовать социальной амнезии путем сохранения и распространения информации из архивных фондов и библиотек в электронном виде. Реестр файлов по состоянию на 31 марта 2022 года можно посмотреть здесь.
Подобные проекты начинают привлекать внимание государственных и региональных управлений. В этом отношении интересно проанализировать опыт итальянской администрации, которая разработала требования и подходы к цифровизации официальной документации. Они обращают внимание, что перед созданием резервной копии необходимо подтвердить аутентичность документа, а его электронная версия должна полностью соответствовать оригиналу.
Подобного рода задачи невозможно выполнить вручную, процесс требует автоматизации, и здесь на помощь приходят системы ИИ. Например, сотрудники архивного фонда в Амстердаме применяют модель Transcribus на базе оптического распознавания символов для расшифровки рукописей.
Дело в том, что массив данных архива составляет около 170 тыс. страниц А4. Для обработки такого объема информации человеческими силами потребовались бы десятки лет. Новый инструмент значительно ускоряет процесс, человеку останется лишь проверить результат на ошибки.
Однако при работе с Transcribus исследователи столкнулись с проблемой, что модель хорошо справляется с печатными текстами, но плохо распознает рукописный. Чтобы преодолеть это ограничение, они научили алгоритмы «видеть» линии, на которые опираются строки. Помимо этого, сотрудники архива улучшили модель, чтобы она умела распознавать не только слова целиком, но и отдельные буквы. Такой подход ускорил работу с документами на разных языках из различных эпох, а также с аббревиатурами.
Восстановление поврежденной надписи с помощью глубоких нейронных сетей. Источник
В то же время системы ИИ находят применение в области науки, известной как эпиграфика. Она занимается исследованием надписей на камне, металле и керамике. Одна из таких моделей — Ithaca — помогает восстанавливать текст на поврежденных древнегреческих каменных табличках. Нейросеть обучили на базе данных некоммерческого фонда Packard Humanities Institute, который содержит переводы более чем 178 тыс. надписей.
С помощью систем ИИ можно расшифровывать даже более древние надписи. Инженеры разработали модель для перевода уже оцифрованных аккадских клинописных табличек (примерно III–II тысячелетие до н. э.) на английский язык.
В целом, научное сообщество отмечает, что прототип выглядит многообещающим, но пока результаты не оправдывают ожиданий — качество переводов набирает 37 баллов по шкале BLEU4. Разработчики полагают, что это связано с ограниченной базой данных для обучения — общее количество найденных и переведенных клинописей не так уж велико. Однако даже не совсем удачные переводы позволили с высокой точностью определять жанровую принадлежность текстов — отличать государственные указы от астрологических отчетов и писем.
Пока сложно сказать, какой способ хранения информации покажет себя наиболее надежным: цифровой, керамический, титановый или какой-либо другой. Однако, чем больше различных носителей мы имеем в нашем распоряжении, тем выше шанс, что какой-либо из них доживет до будущих поколений. Как отметил Оливер Вилке, один из создателей проекта «Розетта», если бы человечество обнаружило аналогичный словарь со всеми языками древности, он стал бы одним из самых ценных артефактов.
Вы можете использовать объектное хранилище для организации резервного копирования своих больших данных. Вам нужно только определить, какие данные и с какой периодичностью необходимо копировать.
Cервис резервного копирования максимально просто подключить к объектному облачному хранилищу. Объем хранимой информации может измеряться в петабайтах.