Как стать автором
Обновить

10 000 000 000 000 000 байтов заархивировано

Время на прочтение1 мин
Количество просмотров31K


25 октября активисты и сотрудники Internet Archive провели торжественную церемонию по поводу знаменательного события: архив интернета перевалил за 10 петабайт (1016 байт). Благодаря этому архиву с Машиной времени мы можем посмотреть, как выглядели знаменитые сайты много лет назад, найти сохранённые копии веб-страниц или просто восстановить свой сайт из «бесплатного бэкапа».

Internet Archive объявил о раздаче 80-терабайтных образцов выборки за 2011 год всем желающим для исследований. Файлы в формате WARC содержат около 2,7 млрд URIs. Они включают в себя весь текстовый контент и всё остальное, что удалось сохранить, в том числе изображения, видео, флэш и т.д.

Выборка:
Дата начала: 09 марта 2011
Дата окончания: 23 декабря 2011
Количество уникальных URL: 2 273 840 159
Количество хостов: 29 032 069

Паук Heritrix сначала скачал 1 миллион самых популярных сайтов по версии Alexa (Хабр там уже был), а потом пошёл по ссылкам.



Ещё один интересный факт, о котором объявили на церемонии. Впервые всё литературное достояние целого народа полностью оцифровано и выложено в интернет. Этим народом стали балийцы.

Праздничные торжества Internet Archive почтил своим присутствием легендарный учёный и идеолог программирования Дональд Кнут. Он сыграл на органе, открыв церемонию.

Теги:
Хабы:
Всего голосов 68: ↑67 и ↓1+66
Комментарии33

Публикации

Истории

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн
10 – 11 октября
HR IT & Team Lead конференция «Битва за IT-таланты»
МоскваОнлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн