Pull to refresh

Comments 17

С тех пор как wayback machine ввели свое дебильнейшее правило о том что наличие в robots.txt записи о непускании их робота на сайт означает «сотрите ВСЮ историю нашего сайта!», из архива были выпилены процентов так 70 сохраненных там ранее сайтов, что сделало его по большей части бесполезным.
UFO landed and left these words here
Страховка была бы гораздо проще выполнена в стиле фидбековой формы «если вы хотите удалить свой сайт из нашего архива, назовите нам причину».
UFO landed and left these words here
UFO landed and left these words here
UFO landed and left these words here
UFO landed and left these words here
UFO landed and left these words here
UFO landed and left these words here
Сайт был ранее предоставлен на всеобщее обозрение, следовательно, автор намеревался сделать его доступным для неограниченного круга лиц.
то всё равно что взять чью-либо вещь без спросу и у себя в квартире повесить плакат «если Вы хотите чтобы я вернул Вашу вещь которую я у Вас спёр, то прямо так и скажите, я верну её A.S.A.P. ».

Нет, это все равно что сфотографировать какую-либо вещь в месте с публичным доступом, повесить эту фоторафию у себя дома с плакатом «если Вы хотите чтобы я убрал эту фотографию вещи которую вы добровольно выставили на всеобщее обозрение, то прямо так и скажите, я уберу её A.S.A.P. » IWM не лазит в скрытые, запароленные или платные участки сайтов (впрочем, как и любой другой веб-бот), где аналогия с кражей была бы уместна, поскольку контент НЕ в свободном доступе.
Проверить прям щас не на чем, но у меня иногда прокатывало открытие страницы как ифрейма или как (внезапно) картинки, то есть если вместо
https://web.archive.org/web/ГГГГММДДЧЧММСС/http://example.org/
написать
https://web.archive.org/web/ГГГГММДДЧЧММССif_/http://example.org/
или
https://web.archive.org/web/ГГГГММДДЧЧММССim_/http://example.org/
, то веб-архив может показать страницу, игнорируя все эти robots.txt
Владельцы сайтов имеют на это право.
Владелец имеет право сказать чтобы за ним перестали следить, но что это влечет за собой подтирание истории — это если по запросу человека о том чтобы о нем не писали больше, редакторы начнут ходить по домам и забеливать прошлые опубликованные материалы о этом человеке из всех книг, газет и прочего.

У этого эффекта заднего числа, оказывается есть ещё и очень гадкие последствия:


  1. Был сайт boostcookbook.com о Boost.
  2. Сайт прекратил существование, но остался в архиве.
  3. Домен приобрёл новый владелец и там теперь какая-то вода из области HR и подобного.
  4. У нового сайта Wayback Machine запрещён в robots.txt, и теперь в архиве недоступен старый сайт.

P.S. Метод, описанный andreymal ниже, сработал в данном случае.

>Если вместо «404 not found» определена иная ошибка или сайт редиректит пользователя вместо пропавшей или несуществующей странички в другое место, новая функция не будет работать.

Фух, слава богу, а то мне поплохело от идеи что меня вместо штатной страницы будет на заглушку кидать.

А так вообще интересная функция, только вот вопрос — готов ли archive.org к таким дополнительным нагрузкам?
UFO landed and left these words here
Sign up to leave a comment.

Articles