GitHub создал тысячелетнее хранилище, в котором сохранит Open Source-репозитории для потомков


    Бывшая угольная шахта, в которой размещатся хранилище Arctic World Archive. Фото: Guy Martin / Bloomberg Businessweek

    Свободное программное обеспечение — краеугольный камень современной цивилизации и общее наследие всего человечества. Миссия программы GitHub Archive — сохранить этот код для будущих поколений, чтобы история Александрийской библиотеки никогда не повторилась.

    Для этого GitHub заведёт много резервных копий на разных носителях, в том числе долгосрочное хранилище Arctic Code Vault на Шпицбергене. Оно размещается в бывшей угольной шахте на глубине 250 метров в вечной мерзлоте и рассчитано на срок хранения минимум 1000 лет.

    Снимок программного кода человечества сделают 2 февраля 2020 года.

    Проект долговременного хранения данных запущен совместно с Long Now Foundation, Интернет-архивом, Фондом наследия программного обеспечения, Arctic World Archive и другими партнёрами.

    Проект LOCKSS


    Жизненно важный сегодня код со временем может быть забыт или потерян. Самое страшное, если в случае глобальной катастрофы мы потеряем всю информацию, которая сохранялась на «эфемерных» носителях: HDD, SSD, CD и DVD, рассчитанных на несколько десятилетий, на лентах, у которых условный срок службы 30 лет предполагает строгий контроль температуры и влажности.

    Решение проблемы — дубликация резервных копий, то есть архивирование программного обеспечения несколькими организациями и в разных формах. Этот проект под названием LOCKSS стартовал ещё почти 20 лет. В мае 2019 года была представлена программа LOCKSS 2.0-alpha — первый прототип ПО для распределённого сохранения данных на длительное время с поддержкой множества участников и внешних хранилищ.

    Разработчики системы исходят из того, что аппаратные средства могут быть гораздо более долговечными, чем эфемерные носители: поэтому «существует целый ряд возможных вариантов будущего, в которых рабочие современные компьютеры существуют, но их программное обеспечение в значительной степени потеряно».

    GitHub напоминает о множестве потерянных технологий, которые могли быть полезными: римский бетон (его рецепт был заново открыт только в 2014 году), противомалярийный препарат DFDT, утерянные чертежи ракеты «Сатурн-5». Легко представить себе будущее, в котором сегодняшнее программное обеспечение будет рассматриваться как причудливая и давно забытая ненужность, пока не возникнет неожиданная потребность в нём: «Как и любая резервная копия, архивная программа GitHub также предназначена для непредвиденного будущего», — говорится на сайте программы GitHub Archive.

    GitHub Archive


    GitHub Archive предусматривает три уровня резервных копий:

    • Горячий: почти в реальном времени
    • Тёплый: обновляется в промежутках от месяца до года
    • Холодный: обновляется каждые 5+ лет

    После любых действий пользователей GitHub все данные Git реплицируются в несколько дата-центров по всему миру. В нескольких местах хранятся бэкапы Git, issue, пул-реквесты и все пользовательские данные на GitHub. Эта информация доступна в реальном времени через GitHub API.

    Кроме того, организован рекурсивное индексирование краулером GHTorrent, который будет выкладывать архивы на ежедневной или ежемесячной основе. Через GH Archive снимки из архива можно получать запросами BigQuery. Другие копии кода размещаются в хорошо известной «Машине времени» для Интернет-архива, которая хранит копии в нескольких местах. Наконец, Фонд наследия программного обеспечения (Software Heritage Foundation) будет регулярно сканировать GitHub и добавлять свои публичные репозитории в свой архив, для которого есть публичный API.

    Арктическое хранилище GitHub


    2 февраля 2020 года GitHub сделает копию всех активных публичных репозиториев — и поместит их в Арктическое хранилище GitHub.

    Данные будут храниться на 3500-футовых плёночных катушках, предоставленных норвежской компанией Piql, которая специализируется на длительном хранении данных. Согласно измерениям ISO, эта плёнка с галогенидами серебра в полиэфире имеет срок жизни 500 лет. Тесты имитационного старения показали, что плёнка Piql сохраняет информацию как минимум вдвое дольше.

    Кроме того, GitHub Archive сотрудничает с исследователи проекта Microsoft Silica, чтобы записать все публичные репозитории на кварцевые стеклянные пластины с помощью фемтосекундного лазера. Этот носитель обеспечит сохранность данных более 10 000 лет.

    Арктическое хранилище кода GitHub создаётся на базе Arctic World Archive (AWA) на глубине 250 метров в вечной мерзлоте. Архив находится в бывшей угольной шахте на архипелаге Шпицберген, что не очень далеко от Северного полюса. Глобальное потепление затронет всего несколько метров вечной мерзлоты и не угрожает шахте в ближайшее время (несколько тысяч лет).

    Шпицберген регулируется международным договором как демилитаризованная зона. Это одно из самых отдалённых и геополитически стабильных человеческих поселений на Земле, считает GitHub. Там же неподалёку располагается знаменитое Всемирное семенохранилище, главная надежда человечества на случай апокалипсиса.


    Всемирное семенохранилище на Шпицбергене

    AWA — совместная инициатива между норвежской государственной горнодобывающей компанией Norske Spitsbergen Kulkompani (SNSK) и провайдером цифрового сохранения Piql AS. Там уже сохраняются исторические и культурные данные из Италии, Бразилии, Норвегии, Ватикана и других стран.


    Фото: Guy Martin / Bloomberg Businessweek

    Катушки с кодом GitHub будут храниться в контейнере со стальными стенками внутри герметичной камеры. В снимок 02.02.2020 года попадут все активные репозитории GitHub и значительная часть неактивных (судя по звёздам, зависимостям и др.), все бинарные файлы до 100 КБ. Каждый репозиторий в отдельном файле tar. Всё должно поместиться на 200 катушек по 120 ГБ.

    Вместе с архивом положат человекочитаемый каталог и технические руководства по декодированию QR, форматам файлам, кодировкам символов и другие важным метаданным, чтобы потомки преобразовать данные обратно в исходный код.

    В архив также включат общее руководство Tech Tree на тот случай, если у будущих читателей не останется работающих компьютеров и им придётся восстанавливать технологии с нуля.
    Дата-центр «Миран»
    483,11
    Решения для аренды и размещения ИТ-инфраструктуры
    Поделиться публикацией

    Комментарии 59

      +10
      Ещё одна выгода быть OpenSource :)
        +6
        Пора создавать репозиторий с посланием потомкам?
          0

          И опубликовать его под свободной лицензией, чтобы каждый мог сделать свою версию?

            +2
            Под WTFPL. :)
              0

              Я хотел сказать "под CC0", но WTFPL — ещё лучше, соглашусь.

          +16

          Охтыж, пойду спрячу(нет) все свои публичные репозитории, а то не дай бог через тысячу лет кто-то увидит мой код и скажет "что за обезьяна это писала!" (как будто сейчас этого никто не может сделать)

            +23
            Не прячьте. Через 1000 лет напишут научную работу «Эволюция мозга человека на примере варварского доисторического программного кода, археологически раскопанного в холодных хранилищах древности»
            0

            Действительно отличная новость! Возможность утери всего написанного ПО реально пугает. А ведь это, как я понимаю, плюс-минус возможный кейс, например если на солнце начнутся какие-то нереальные магнитные аномалии.
            Но что делать с проприетарным софтом?

              +18

              У закрытого софта нет будущего, очевидно.

                0

                Напишут все заново только без огромного устаревшего легаси… вот только боюсь что при тех событиях при которых может пропасть весь или большинство софта, софт будет меньшей из проблем

                +6
                > человекочитаемый каталог и технические руководства… чтобы потомки преобразовать данные обратно
                Всё хорошо, но…
                1. это если потомки будут уметь читать
                2. на английском языке (они же правильно догадаются, что бумажки, откопанные на норвежском острове прямо напротив российского Мурманска на глубине, соответствующей кембрию, написано на американском диалекте английского конца XX века?)
                  +4
                  3. Если потомки будут людьми. А не нейросетями, например.
                    +2
                    Представьте, если мы сейчас откопали глиняную табличку с кодом, созданным пару тысячелетий назад. Лучшие умы планеты с огромной охотой бы стали её анализировать.
                      +2
                      1. Будут, это выгодно с точки зрения общения и передачи информации.
                      2. Лингвистика это большая наука, которая изучает языки. А английский самый распространенный язык. Если мы сейчас можем прочитать древнеегипетские письмена, то английский уж точно смогут.
                        +3
                        «английский самый распространенный язык». Уточнение: последние 100 с небольшим лет.
                      +4
                      А в далеком будущем археологи будут ломать голову над вопросом: «нахрена древние программисты писали код, закопавшись в шахтах?»
                        +4
                        Или подумают что это какая-то гробница, в которую складывали, артефакты содержащие непонятные письмена…
                          +17

                          Скорее что в этой шахте был погребён, например, Столлман. И вместе с ним закопали двадцать терабайт опенсорсного кода, аналогично коням и рабам каких-нибудь царей Бронзового века.

                            0
                            Рабам и коням, согласно условиям использования, больше соответствовал бы проприетарный софт.
                              0

                              А опенсорсный тогда что — членам семьи?

                                0

                                Массовое захоронение же. Потом ИИ их найдут и похоронят как должно

                            +1
                            рисунки и текст в гробницах фараонов заиграли новыми красками! это код для древних машин! срочно зовите рентв!
                          +7
                          Amazon, your Glacier is not cool enough
                            +2
                            Дикарям будущего будет чем отапливать эту пещеру — эти пленки горят ведь?
                              +1

                              Этот код будет также бесполезен уже через 100 лет, как и код, когда то написанный для калькуляторов мк, например.

                                +4
                                Бизнес-логика сможет рассказать потомкам о различных хозяйственных сферах.
                                  +4

                                  Хм, чтобы понять бизнес-логику в коде написанном в прошлом году предыдущей командой, я трачу многие, многие часы день за днём. Учитывая что и язык реализации прекрасно знаю, и хозяйственная сфера современна мне, и кто-то из авторов даже консультирую… А вы говорите 1000 летнее легаси, авторы которого давно мертвы, поможет.

                                    0
                                    Вероятнее всего, в далеком будущем будет возможность разобрать его с помощью какой-нибудь простой нейронки, управляемой голосовыми командами в стиле: «Загрузи код с этой кассеты и определи наиболее вероятные сферы его применения».
                                +3

                                Да, не зря я залил туда репу со своим рогаликом-недоделкой, который лепил в школьные годы! Потомкам будет на что посмотреть

                                  +2

                                  К сожалению, есть ненулевая вероятность, что вашу репу просто снесут через месяц-другой после очередного обновления пользовательского соглашения, как не представляющую коммерческой ценности.

                                    0

                                    Я ж Злоддей, Империя Зла должна быть на моей стороне

                                  +1

                                  Интересно, где все эти годы будет храниться оборудование, способное что-либо прочитать с этих уникальных носителей? Например, у меня есть дискета 3'', но что на ней, узнать не представляется возможным.

                                    0
                                    У меня на даче пара старых компов с флопповодами, но не поеду туды из-за этого
                                      +1
                                      3" != 3.5"
                                        0

                                        У нас метрическая система. Я вообще не врубаюсь, что такое 3.5'' дюйма. ©

                                          0
                                          Между прочим, 3" диски действительно существовали — www.cpcwiki.eu/index.php/CF2_Compact_Floppy_Disc. Хотя не уверен, что предыдущие комментаторы имели в виду именно их (а может, в самом деле парочка Амстрадов завалялась?)
                                            +1

                                            Я всегда называл их трехдюймовыми, и мои собеседники всегда понимали, что именно я имею в виду. По-русски не очень принято использовать слова типа «трех-с-половиной-дюймовые». Вот если бы в ходу были одновременно оба формата 3’’ и 3.5’’, тогда пришлось бы их как-то дифференцировать.

                                          +5

                                          А мне пока и не надо. Я на дискете написал, что если что, то дисковод есть у viceroyalty на даче. Пусть потомки сами разбираются.

                                            0
                                            Примерно так был написан календарь майя
                                        0
                                        Еще в космос отправьте. Инопланетным цивилизация будет очень интересно все это. И на дельфиньем языке так же версию записать не забудьте. Когда люди вымрут, а дельфины эволюционируют, им так же будет очень важно это наше наследие.

                                        Реально, вообще больше не чем заняться, других проблем вообще нет?
                                          +1
                                          А оборудование для считывания не положили. Промоакция компании делающей плёнки.
                                            0
                                            Надо бы координаты всех таких хранилищ распечатать на бумаге, а лучше на металических пластинках, и массово распространить.
                                              0
                                              Металлические пластинки рано или поздно деградируют до состояния руды.
                                                +3
                                                Нет, лучше зашифровать координаты в пропорциях гигантских скульптур, и расставить их по всей Земле.
                                                  0

                                                  Сначала надо расшифровать те координаты, которые в виде гигантских сооружений оставили для нас представители предыдущих культур.

                                                    +1
                                                    Вы в самом деле хотите найти терабайты доисторического легаси?
                                                      0

                                                      Конечно. Вы видели сколько плюсов собрал пост про сборку 1-го перла? А если его через PVS-studio проанализировать, то можно очень конкретно свой профиль прокачать.

                                                +1

                                                Сама по себе идея создать вечное хранилище исходных кодов выглядит конечно очень здорово, но то, что воплотить её собирается компания которая сама же и удаляет раз за разом репозитории с важными и востребованными проектами своих пользователей выглядит несколько лицемерно, не находите?

                                                  0
                                                  А вот интересно — сказано что все активные репозитории копируются — а что делается если потом выясняется что было скопировано и что-то что копировать было нельзя? Ждем следующего обновления или срочно переписываем ленты?
                                                    0

                                                    "Копировать было нельзя" — в смысле приватные какие-нибудь данные? Надо Terms and Conditions курить, но скорей всего кто залил пароли на гитхаб, тот сам дурак.

                                                      0
                                                      Нет. Допустим, репозиторий, прибитый по DMCA Takedown notice (и два варианта — либо потому что там реально залит приватный код БЕЗ разрешения (с Bookfusion такое было) либо например кто-то (не показываем пальцем на Nintendo) возбудился на исходники эмулятора приставки/там MPAA на очередной Popcorn Time)
                                                  0

                                                  Ура, все мои копии Hello world! будут доступны для потомков!

                                                    0
                                                    Хотел бы я посмотреть на реальное «Tech Tree», которое позволит из железного века докатиться до информационного. Интересовался вопросом, но любой поиск любезно показывал игровые деревья технологий, всячески избегая реальности.
                                                      0
                                                      Помнится было подобное хранилище только для семян, то же тысячелетнее, то же для потомков, то же в вечной мерзлоте, лет несколько назад его эвакуировали из-за того что вечная мерзлота растаяла.
                                                      +1
                                                      Бэкап это всегда отлично особенно если его можно восстановить
                                                        +1
                                                        Данные будут храниться на 3500-футовых плёночных катушках
                                                        Воспринял сначала по аналогии с "пятидюймовыми дискетами" и восхитился масштабу предприятия. Потом немношк разочаровался...
                                                          0
                                                          Интересно, какая доля репозиториев на гитхабе является форками без изменений исходного кода вообще?

                                                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                          Самое читаемое