10 000 000 000 000 000 байтов заархивировано



    25 октября активисты и сотрудники Internet Archive провели торжественную церемонию по поводу знаменательного события: архив интернета перевалил за 10 петабайт (1016 байт). Благодаря этому архиву с Машиной времени мы можем посмотреть, как выглядели знаменитые сайты много лет назад, найти сохранённые копии веб-страниц или просто восстановить свой сайт из «бесплатного бэкапа».

    Internet Archive объявил о раздаче 80-терабайтных образцов выборки за 2011 год всем желающим для исследований. Файлы в формате WARC содержат около 2,7 млрд URIs. Они включают в себя весь текстовый контент и всё остальное, что удалось сохранить, в том числе изображения, видео, флэш и т.д.

    Выборка:
    Дата начала: 09 марта 2011
    Дата окончания: 23 декабря 2011
    Количество уникальных URL: 2 273 840 159
    Количество хостов: 29 032 069

    Паук Heritrix сначала скачал 1 миллион самых популярных сайтов по версии Alexa (Хабр там уже был), а потом пошёл по ссылкам.



    Ещё один интересный факт, о котором объявили на церемонии. Впервые всё литературное достояние целого народа полностью оцифровано и выложено в интернет. Этим народом стали балийцы.

    Праздничные торжества Internet Archive почтил своим присутствием легендарный учёный и идеолог программирования Дональд Кнут. Он сыграл на органе, открыв церемонию.

    Поддержать автора
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 33

      –13
      Досчитай до 100, досчитай.
        –28
        Вот не лень же заниматься таким…
          +32
          Ох, вы не представляете, как иногда «такое» помогает…
          Большое им спасибо))
          • НЛО прилетело и опубликовало эту надпись здесь
              +18
              Вижу вам скучно, а вот Кнуту не лень было учится играть на органе.
                +2
                Это же не только для «истории внешнего вида».
                Например, если была интересная информация, но впоследствии сайт закрылся.

                Кстати, если кто не знает, там не только сайты из Alexa, но можно и самостоятельно добавить страницу по нужному адресу (если она не запрещена для индексации в robots.txt).
                  0
                  большая (а может и огромная) проблема интернета в том, что его содержимое невечно. Откройте любой компьютерный журнал десятилетней давности и попробуйте вбить ссылки из тамошних статей. 90% ссылок не откроются, потому что их больше не существует — сайт переехал, движок поменялся, автор уехал в африку и забыл оплатить хостинг и тысяча других причин.

                  прито самая сила всемирной сети как раз в том, что информауия, попавшая туда должна оставаться в ней навсегда
                  +45
                  Кнут еще и органист, офигеть.
                    +7
                    Угу, насколько мне известно, у него дома тоже есть орган.
                      +5
                      В одной из статей он рассказывал, что в его время (на его курсе?) мало кто из студентов не играл на каком-нибудь инструменте. Сокрушался, что студент уже не торт.
                        +2
                        А я в свои 21 без какого-либо музыкального образования взял и начал играть на фортепиано, точнее учиться. Мысль была — слишком однобоко развиваюсь — программирования и бодифитнесса стало мало.

                        Может ему тоже в свое время в голову пришло что-то подобное? :)
                          0
                          Он еще их и проектирует, насколько я помню.
                        • НЛО прилетело и опубликовало эту надпись здесь
                            +1
                            Тоже недавно удивился, обнаружив в архиве несколько версий своего хомяка. Казалось бы, такая песчинка в сети, но все равно замечена и сохранена.
                            0
                            facebook-а нет в веб архиве, а как он. мне один раз нужен был(((
                            Молодцы, в любом сулчае.
                              0
                              Уверен что они ничего не удаляют, и в целях маркетинга и рекламы у в принципе них можно всё интересующее купить.
                                0
                                своё можно заказать на DVD и бесплатно.
                              +4
                              около 2,7 млрд URIs

                              Какой прекрасный перевод.
                              • НЛО прилетело и опубликовало эту надпись здесь
                                  +2
                                  • НЛО прилетело и опубликовало эту надпись здесь
                                  +2
                                  Интернет таки скачали?
                                    +2
                                    Скорее в процессе… Это же как полностью скопировать информацию из /dev/zero /dev/random и т.п.
                                    Как докачают /dev/zero примутся за /dev/random
                                    0
                                    Наверно я туплю. Разъясните, пожалуйста, скачали 10*10^15 байт или 10*2^50 байт?
                                      0
                                      Посмотри на фотку из поста. 10^16 байт
                                      Это 10*(10^15)
                                        0
                                        Это-то понятно. Просто Петабайт это всё же 10*2^50 байт, потому и возник данный вопрос. Мы же говорим килобайт(10^3), вместо кибибайта(2^10), подразумевая именно 2^10.
                                      +1
                                      Интересно было бы почитать про его инфаструктуру. Используют ли они ленточные библиотеки, и сколько это уже занимает места. Ведь если прикинуть это без избыточности и индексации хранить на 2тб 3,5" дисках понадобится 5млн штук. Если сложить в стопку друг на друга, получится столб 127!!! км
                                        +2
                                        Инфрастуктура на основе: archive.org/web/petabox.php

                                        Petabox storage system:
                                        Density: 650 TeraBytes / rack
                                        Power consumption: 6 KW / PetaByte
                                        No Air Conditioning, instead use excess heat to help heat the building.
                                        Raw Numbers as of December 2010:
                                        4 data centers, 1,300 nodes, 11,000 spinning disks
                                        Wayback Machine: 2.4 PetaBytes
                                        Books/Music/Video Collections: 1.7 PetaBytes
                                        Total used storage: 5.8 PetaBytes
                                        0
                                        500 2 терабайтных же дисков на один петабайт, не?
                                          0
                                          Ага, где-то пачкой ноликов в расчетах ошибся.
                                        0
                                        Размер всех раздач рутрекера — 2 петабайта.
                                          0
                                          По своей сути это история интернета.
                                          Наверное когда нибудь, ссылками из вебархива, будут снабжать учебники, что бы разобрать основные исторические вехи образования всемирной паутины.

                                          Спасибо, тем, кто это создал и поддерживает.

                                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                          Самое читаемое