Pull to refresh

Comments 87

тем не менее остается открытым вопрос: кому выгодно спонсировать такой некоммерческий проект?
или все же доля коммерциализации есть? например хостинг на такой вполне годной архитектуре.

UFO just landed and posted this here
А! Ну это все объясняет! Ох уж эти добровольные жертвователи!

750 серверов, возраст до 9 лет;
На архивных серверах и держится:)


Хотелось бы проснуться в светлом будущем, когда тот же архив интернета будет сохранять страницы в нормальном виде с непоехавшей вёрсткой и хранить его децентрализованно, обеспечивая при этом быстрый доступ. Мечты-мечты. Проект сам по себе нужный, пригождается иной раз.

Зато теперь им есть к чему стремиться

UFO just landed and posted this here
UFO just landed and posted this here

Стоит так же хранить дистрибутивы операционных систем на которых можно запустить эти версии браузеров. А так же дистрибы виртуальных машин для данных ОС. Главное не загнать себя в рекурсию.

UFO just landed and posted this here
Проект ценный для контроля неизменности и подтасовок истории как минимум.
Либо наоборот, для подтасовок. Если копия есть только у них, то — «какие ваши доказательства?» ()

Ну так а почему копия только у них? Копируйте себе тоже, они же не запрещают.

UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
Заглянул в архив дисков и возник вопрос. Цензуры или какой-то фильтрации там нет? Столько «добра» нашёл.

А зачем цензура? Это БЫЛО, и пусть даже не нравится кому-то. Архив — это беспристрастная вещь. Он просто хранит память. Мне вот Гитлер не нравится — и что? Мне возмущаться, что есть его фото, линия партии и т.д.? Нонсенс. Мне он противен, но он был. И пусть другие тоже знают и видят. Кто-то поморщится и закроет страницу, кто-то почитает.
Кстати, вопрос: а зачем вы там "добро" искали? На старенькое потянуло? :)

Всмысле искал? На первой же странице. Не понятно почему заминусовали, сам против цензуры, вопрос больше состоял в том, что не получили я пачку вирусов с контентом.

я двумя руками голосую за пачку вирусов с контентом, если они там были в момент создания копии.
тем более, кому опасны вирусы прошлых лет?

Мне он противен, но он был. И пусть другие тоже знают и видят. Кто-то поморщится и закроет страницу, кто-то почитает.
Более того, забывать такое категорически опасно, так как повышает риски повторения в будущем. Чтобы учится на ошибках их надо хорошо помнить!

А вот поваренная книга анархиста, методики организации партизанской войны, личные данные митингующих и омоновцев разгонявших митинг. и это все БЫЛО.

А вот личные данные расстрелянных в 37-м и палачей, исполнявших приговоры. И это тоже было.

Небезпристрастная. Для некоторых сайтов/страниц
"this URL has been excluded from wayback machine"

Надеюсь, что нет и не будет. Хотя вопрос стоящий — если сайт давал связь террористам/злобным хакерам/врагам народа и его закрыли на законных основаниях, то, наверное и его копия будет недоступна?
А как, без копии, понять — что это именно так все и было?

А если архив вывести из под цензуры, то что помешает его использовать для пропаганды? просто давая ссылки в глубину сохраненного?

UFO just landed and posted this here
А зачем мешать?

Чтобы соответствовать законодательству?
UFO just landed and posted this here
Законодательству какой именно страны?

Прежде всего той, где размещены серверы. Иначе может быть бо-бо.

Кхм-кхм, в Казахстане WayBackMachine заблокирован довольно давно.

вот вы и подошли к глубинному философскому вопросу ) в том числе почему смертная казнь заменяеться на пожизненное. надеюсь, людей, считающих свободу информации важнее сиюминутных личных интересов, будет больше.
Веб-архив так работает (или работал раньше по крайней мере), что если в какой-то момент времени владелец домена (даже если домен был зарегистрирован заново) запретит его индексацию в robots.txt, то копия из архива тоже пропадет.
User-agent: ia_archiver
Disallow: /

Но я погуглил, судя по всему с 2018 года это уже не работает.
User-agent: ia_archiver
Disallow: /
работает до сих пор. Но если отключил, то при обратном включении потребуется очень много времени, чтобы бот сам снова пришёл. Можно пойти на archive.org и сделать историческую копию любого сайта.
UFO just landed and posted this here
UFO just landed and posted this here
Извините, можно пояснить — в архив каких дисков вы заглянули?
Спасибо архив! Посмотрел на свою «домашнюю страничку» на GeoCities, понастальгировал, сохранил себе на диск.
UFO just landed and posted this here
Как Вы правы!
К сожалению, моя юность прошла на форумах и сайтах именно с «динамическим контентом». Так что собирать самого себя молодого по крошкам в интернетах — дело довольно хлоптное и зачастую безнадёжное. Но подсказать в юности, что нужно не только пейсать тоннами в сеть, но и сохранять это на память для будущего себя, было некому. А своих мозгов на это не хватало. Впрочем, в юности всегда кажется, что молодость будет длиться вечно, взрослые сразу были такими скучными и занудными, и вообще, вросление и старость — это не про нас. А потом осознаёшь, что поговорка «Если бы молодость знала, если бы старость могла» — внезапно, вне поколений. И, оказывается, даже про интернеты…
UFO just landed and posted this here

Любопытно. Почему слово "ностальгия" вызывает у людей столько сложностей?

Приведу пример одного из смыслов сохранения. Ютуб со времён ковида принялся яростно цензировать и удалять контент. Многие заливают в архив видео и там оно остаётся.

А кого-то молодость прошла в чатах, где вообще всё исчезало за полчаса.

то, что нельзя прочитать сообщения себя молодого это наоборот благо. А то так можно и со стыда помереть
UFO just landed and posted this here
Я уже успел подзабыть, что хабр раньше habrahabr.ru назывался :)
UFO just landed and posted this here
Красавцы. Очень радует независимость проекта.
Удивляет, как долго им удаётся быть действительно независимыми. Интересно, когда до него доберётся банда, желающая изменить ход истории.
По состоянию на февраль 2021 года на серверах хранились копии 534 млрд веб-страниц...3,8 млн изображений...

Удивлен. Предполагал, что количество изображений будет исчисляться в миллиардах.
Они хранят только совсем маленькие до нескольких Кб.
часто там открываешь страницу и изображение не прогружается, ибо его копии нет
В зависимости от методологии расчёта, хранение данных в собственных дата-центрах Internet Archive обходятся в 2−5 раз дешевле, чем в облаке.

но


Есть подозрение, что рано или поздно наступит момент, когда сложность поддержания своей инфраструктуры превысит некий порог — и библиотека откажется от собственных дата-центров.

Вы уж определитесь. Чем больше проект, тем наоборот выгоднее его хостить на своих серверах.

UFO just landed and posted this here
Их выгодность зависит от масштаба проекта — чем больше ресурсов нужно, тем менее выгодны облака.

Облака решают проблему, что даже для очень маленького сервиса, нужно строить сетевую инфраструктуру и цена её проектирования, постройки и обслуживания не нулевая и начинается с немаленьких величин (ЗП соответствующих специалистов, плюс необходимо ещё найти толковых, следить за ними и т. д.). Если проект очень большой и стоимость железа (при этом оно утилизируется 24/7) многократно превосходит стоимость специалистов, необходимых для его настройки и обслуживания, то выгоднее всё сделать самому.

Это как если вам нужно раз в год ночью гонять на другой конец города, то такси однозначно выгоднее. А если каждый день несколько раз и так всю жизнь, то своя машина будет дешевле.
UFO just landed and posted this here
Можно дорасти до собственных облаков ;)
UFO just landed and posted this here
Чем AWS lightsail хуже выделенного сервера?
На мой сугубо личный взгляд и опыта работы в поддержке таких сервисов, хочу отметить, что сами сервисы не настраиваются и не работают по нажатию одной волшебной кнопки, то есть вынеся всё в облака, вам придётся держать человека или сотрудничать с оутсорс-компанией, которая вам будет допиливать сервисы. Сетевая архитектура типичного проекта не такая сложная, как это может показаться. Даже HL/HA не так страшно, как может показаться.

Облака интересны другим: вынос прода из офиса, где канал не может похвастать симметричным 10Gb, а также быстрая масштабируемость — увеличение кластера (не нужно держать ресурсы в запасе).

Для себя выбрал гибридную схему ресурсов. Везде есть свои плюсы и свои минусы.
Вообще не такой простой вопрос, как кажется.
Они откуда то взяли цивры 2-5 раз, но при их объемах совершенно точно у них будет очень особая цена для них. dropbox долго жил в AWS S3, и только из-за того, что начали делать очень кастомные хранилища для себя это стало давать выгоду.

«When they made the transition, they had to move an epic 500 petabytes» techcrunch.com/2017/09/15/why-dropbox-decided-to-drop-aws-and-build-its-own-infrastructure-and-network

Сдается, что облака никогда не были ни надежными, ни дешевыми — чтобы прямо вот на 100%.


Хотя, наверное, Амазон бы такому предложил условия куда получше розничных.

WebArchive — one love. Спасибо ребятам огромное. Делают здравые и полезные вещи.

Просто мысли в слух… Интересно, можно ли это все поднять на каких-нибудь АСИКах? Ведь грубо говоря это просто огромная ферма веб серверов, выболняющих вполне ограниченное кол-во функций. Зато энергопотребление и тепловыделение можно было бы снизить (хотя скорее всего львиная доля оных приходится на диски а не CPU)

UFO just landed and posted this here
Есть подозрение, что рано или поздно наступит момент, когда сложность поддержания своей инфраструктуры превысит некий порог — и библиотека откажется от собственных дата-центров

Так не бывает. Стоимость содержания своего датацентра всегда будет ниже, чем стоимость содержания чужого датацентра, уплаты чужих налогов, чужих операционных расходов и чужой прибыли.
Если ваш датацентр построен на технологиях из прошлого века, с PUE=2, а новомодный, на каких-нить северах с PUE=1.2, да еще в регионе с дешевым электричеством, то эта разница вполне может покрывать и чужие налоги и чужую прибыль.
*В теории

Тогда постройте свой новый в регионе с дешёвым электричеством.

Не ответили на самое главное — что у них там за система хранения. Ceph?

Великий проект, огромное спасибо ребятам, на которых он держится.

В жизни бы такой же «архив». Чтобы рраз — и ты проживаешь заново 14 июня 2001 года.
Да просто рандомная дата из уже далекого прошлого.
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
Тоже часто появляется это сообщение, но я никуда не спешу. Наверно если появляется, значит есть на то причина. По крайней мере можно повлиять на это состояние нажатием кнопки Donate.

Как же сложно представить в голове подобные инфраструктуры, жесть

Что попало в интернет, останется там навсегда!))
UFO just landed and posted this here
Раньше было — «Победители пишут историю»
Сейчас — " у кого есть много 20 Тб дисков — пишут историю"
Вообще я считаю, что должна быть еще одна резервная копия, хотя бы самого важного — это разделить архив на блоки (по 100 МБ к примеру, ну или разные сделать варианты 100, 500, 1000 Мб) с хеш суммой, и сделать плату доступа на сайт в виде предъявления что ты хранишь какой то их этих блоков на своих ресурсах (доказательство хранения). Ну и просто сочувствующим дать возможность помогать таким образом резервировать хранение и не допустить фальсификацию.
Сделать миллионы таких блоков с уникальными именами и хешсуммами (начиная с самых важных), и равномерно раздавать по миру, с таким расчетом, чтобы к примеру самое важное было еще по 3-10 копий постоянно на руках по миру, причем на разных континентах, менее важное хотя бы 2 активные копии постоянно блока. Предоставление сохранности блока — ключ к доступу на сайт.
Вообще в перспективе надо вводить по миру систему — хочешь сохранить надежно что то в интернете, сохрани у себя столько же чужого.
Это единственный вариант надежного хранения — разнести информацию по всему миру в нескольких экземплярах.
Sign up to leave a comment.