Комментарии 87
тем не менее остается открытым вопрос: кому выгодно спонсировать такой некоммерческий проект?
или все же доля коммерциализации есть? например хостинг на такой вполне годной архитектуре.
750 серверов, возраст до 9 лет;
На архивных серверах и держится:)
Хотелось бы проснуться в светлом будущем, когда тот же архив интернета будет сохранять страницы в нормальном виде с непоехавшей вёрсткой и хранить его децентрализованно, обеспечивая при этом быстрый доступ. Мечты-мечты. Проект сам по себе нужный, пригождается иной раз.
Зато теперь им есть к чему стремиться
А зачем цензура? Это БЫЛО, и пусть даже не нравится кому-то. Архив — это беспристрастная вещь. Он просто хранит память. Мне вот Гитлер не нравится — и что? Мне возмущаться, что есть его фото, линия партии и т.д.? Нонсенс. Мне он противен, но он был. И пусть другие тоже знают и видят. Кто-то поморщится и закроет страницу, кто-то почитает.
Кстати, вопрос: а зачем вы там "добро" искали? На старенькое потянуло? :)
Мне он противен, но он был. И пусть другие тоже знают и видят. Кто-то поморщится и закроет страницу, кто-то почитает.Более того, забывать такое категорически опасно, так как повышает риски повторения в будущем. Чтобы учится на ошибках их надо хорошо помнить!
А вот поваренная книга анархиста, методики организации партизанской войны, личные данные митингующих и омоновцев разгонявших митинг. и это все БЫЛО.
Небезпристрастная. Для некоторых сайтов/страниц
"this URL has been excluded from wayback machine"
А если архив вывести из под цензуры, то что помешает его использовать для пропаганды? просто давая ссылки в глубину сохраненного?
User-agent: ia_archiver
Disallow: /
Но я погуглил, судя по всему с 2018 года это уже не работает.
К сожалению, моя юность прошла на форумах и сайтах именно с «динамическим контентом». Так что собирать самого себя молодого по крошкам в интернетах — дело довольно хлоптное и зачастую безнадёжное. Но подсказать в юности, что нужно не только пейсать тоннами в сеть, но и сохранять это на память для будущего себя, было некому. А своих мозгов на это не хватало. Впрочем, в юности всегда кажется, что молодость будет длиться вечно, взрослые сразу были такими скучными и занудными, и вообще, вросление и старость — это не про нас. А потом осознаёшь, что поговорка «Если бы молодость знала, если бы старость могла» — внезапно, вне поколений. И, оказывается, даже про интернеты…
По состоянию на февраль 2021 года на серверах хранились копии 534 млрд веб-страниц...3,8 млн изображений...
Удивлен. Предполагал, что количество изображений будет исчисляться в миллиардах.
В зависимости от методологии расчёта, хранение данных в собственных дата-центрах Internet Archive обходятся в 2−5 раз дешевле, чем в облаке.
но
Есть подозрение, что рано или поздно наступит момент, когда сложность поддержания своей инфраструктуры превысит некий порог — и библиотека откажется от собственных дата-центров.
Вы уж определитесь. Чем больше проект, тем наоборот выгоднее его хостить на своих серверах.
Облака решают проблему, что даже для очень маленького сервиса, нужно строить сетевую инфраструктуру и цена её проектирования, постройки и обслуживания не нулевая и начинается с немаленьких величин (ЗП соответствующих специалистов, плюс необходимо ещё найти толковых, следить за ними и т. д.). Если проект очень большой и стоимость железа (при этом оно утилизируется 24/7) многократно превосходит стоимость специалистов, необходимых для его настройки и обслуживания, то выгоднее всё сделать самому.
Это как если вам нужно раз в год ночью гонять на другой конец города, то такси однозначно выгоднее. А если каждый день несколько раз и так всю жизнь, то своя машина будет дешевле.
Облака интересны другим: вынос прода из офиса, где канал не может похвастать симметричным 10Gb, а также быстрая масштабируемость — увеличение кластера (не нужно держать ресурсы в запасе).
Для себя выбрал гибридную схему ресурсов. Везде есть свои плюсы и свои минусы.
Они откуда то взяли цивры 2-5 раз, но при их объемах совершенно точно у них будет очень особая цена для них. dropbox долго жил в AWS S3, и только из-за того, что начали делать очень кастомные хранилища для себя это стало давать выгоду.
«When they made the transition, they had to move an epic 500 petabytes» techcrunch.com/2017/09/15/why-dropbox-decided-to-drop-aws-and-build-its-own-infrastructure-and-network
Просто мысли в слух… Интересно, можно ли это все поднять на каких-нибудь АСИКах? Ведь грубо говоря это просто огромная ферма веб серверов, выболняющих вполне ограниченное кол-во функций. Зато энергопотребление и тепловыделение можно было бы снизить (хотя скорее всего львиная доля оных приходится на диски а не CPU)
Но кто будет хранить сам архив?
Oh, wait https://web.archive.org/web/19980109140106/http://archive.org/
Есть подозрение, что рано или поздно наступит момент, когда сложность поддержания своей инфраструктуры превысит некий порог — и библиотека откажется от собственных дата-центров
Так не бывает. Стоимость содержания своего датацентра всегда будет ниже, чем стоимость содержания чужого датацентра, уплаты чужих налогов, чужих операционных расходов и чужой прибыли.
*В теории
Не ответили на самое главное — что у них там за система хранения. Ceph?
Великий проект, огромное спасибо ребятам, на которых он держится.
Как же сложно представить в голове подобные инфраструктуры, жесть
Сейчас — " у кого есть много 20 Тб дисков — пишут историю"
Вообще я считаю, что должна быть еще одна резервная копия, хотя бы самого важного — это разделить архив на блоки (по 100 МБ к примеру, ну или разные сделать варианты 100, 500, 1000 Мб) с хеш суммой, и сделать плату доступа на сайт в виде предъявления что ты хранишь какой то их этих блоков на своих ресурсах (доказательство хранения). Ну и просто сочувствующим дать возможность помогать таким образом резервировать хранение и не допустить фальсификацию.
Сделать миллионы таких блоков с уникальными именами и хешсуммами (начиная с самых важных), и равномерно раздавать по миру, с таким расчетом, чтобы к примеру самое важное было еще по 3-10 копий постоянно на руках по миру, причем на разных континентах, менее важное хотя бы 2 активные копии постоянно блока. Предоставление сохранности блока — ключ к доступу на сайт.
Вообще в перспективе надо вводить по миру систему — хочешь сохранить надежно что то в интернете, сохрани у себя столько же чужого.
Это единственный вариант надежного хранения — разнести информацию по всему миру в нескольких экземплярах.
На каких серверах держится Архив Интернета?