marks Aug 7 2016 at 11:03

Тестовая функция Firefox загружает страницу из «Архива Интернета» вместо ошибки 404

2 min

13K

Lifehacks for geeksIT-companies

+10

Comments 17

Darth_Biomech Aug 7 2016 at 11:55

С тех пор как wayback machine ввели свое дебильнейшее правило о том что наличие в robots.txt записи о непускании их робота на сайт означает «сотрите ВСЮ историю нашего сайта!», из архива были выпилены процентов так 70 сохраненных там ранее сайтов, что сделало его по большей части бесполезным.

UFO landed and left these words here

Darth_Biomech Aug 9 2016 at 08:25

Страховка была бы гораздо проще выполнена в стиле фидбековой формы «если вы хотите удалить свой сайт из нашего архива, назовите нам причину».

UFO landed and left these words here

TotalAMD Aug 9 2016 at 10:03

Сайт был ранее предоставлен на всеобщее обозрение, следовательно, автор намеревался сделать его доступным для неограниченного круга лиц.

Darth_Biomech Aug 9 2016 at 10:26

то всё равно что взять чью-либо вещь без спросу и у себя в квартире повесить плакат «если Вы хотите чтобы я вернул Вашу вещь которую я у Вас спёр, то прямо так и скажите, я верну её A.S.A.P. ».

Нет, это все равно что сфотографировать какую-либо вещь в месте с публичным доступом, повесить эту фоторафию у себя дома с плакатом «если Вы хотите чтобы я убрал эту фотографию вещи которую вы добровольно выставили на всеобщее обозрение, то прямо так и скажите, я уберу её A.S.A.P. » IWM не лазит в скрытые, запароленные или платные участки сайтов (впрочем, как и любой другой веб-бот), где аналогия с кражей была бы уместна, поскольку контент НЕ в свободном доступе.

andreymal Aug 7 2016 at 12:40

Проверить прям щас не на чем, но у меня иногда прокатывало открытие страницы как ифрейма или как (внезапно) картинки, то есть если вместо
https://web.archive.org/web/ГГГГММДДЧЧММСС/http://example.org/
написать
https://web.archive.org/web/ГГГГММДДЧЧММССif_/http://example.org/
или
https://web.archive.org/web/ГГГГММДДЧЧММССim_/http://example.org/
, то веб-архив может показать страницу, игнорируя все эти robots.txt

daihatsu Aug 8 2016 at 09:25

Владельцы сайтов имеют на это право.

Darth_Biomech Aug 9 2016 at 08:23

Владелец имеет право сказать чтобы за ним перестали следить, но что это влечет за собой подтирание истории — это если по запросу человека о том чтобы о нем не писали больше, редакторы начнут ходить по домам и забеливать прошлые опубликованные материалы о этом человеке из всех книг, газет и прочего.

xaizek Sep 1 2016 at 13:41

У этого эффекта заднего числа, оказывается есть ещё и очень гадкие последствия:

Был сайт boostcookbook.com о Boost.
Сайт прекратил существование, но остался в архиве.
Домен приобрёл новый владелец и там теперь какая-то вода из области HR и подобного.
У нового сайта Wayback Machine запрещён в robots.txt, и теперь в архиве недоступен старый сайт.

P.S. Метод, описанный andreymal ниже, сработал в данном случае.

Jogger Aug 7 2016 at 19:23

>Если вместо «404 not found» определена иная ошибка или сайт редиректит пользователя вместо пропавшей или несуществующей странички в другое место, новая функция не будет работать.

Фух, слава богу, а то мне поплохело от идеи что меня вместо штатной страницы будет на заглушку кидать.

А так вообще интересная функция, только вот вопрос — готов ли archive.org к таким дополнительным нагрузкам?

UFO landed and left these words here