Comments 17
С тех пор как wayback machine ввели свое дебильнейшее правило о том что наличие в robots.txt записи о непускании их робота на сайт означает «сотрите ВСЮ историю нашего сайта!», из архива были выпилены процентов так 70 сохраненных там ранее сайтов, что сделало его по большей части бесполезным.
Страховка была бы гораздо проще выполнена в стиле фидбековой формы «если вы хотите удалить свой сайт из нашего архива, назовите нам причину».
Сайт был ранее предоставлен на всеобщее обозрение, следовательно, автор намеревался сделать его доступным для неограниченного круга лиц.
то всё равно что взять чью-либо вещь без спросу и у себя в квартире повесить плакат «если Вы хотите чтобы я вернул Вашу вещь которую я у Вас спёр, то прямо так и скажите, я верну её A.S.A.P. ».
Нет, это все равно что сфотографировать какую-либо вещь в месте с публичным доступом, повесить эту фоторафию у себя дома с плакатом «если Вы хотите чтобы я убрал эту фотографию вещи которую вы добровольно выставили на всеобщее обозрение, то прямо так и скажите, я уберу её A.S.A.P. » IWM не лазит в скрытые, запароленные или платные участки сайтов (впрочем, как и любой другой веб-бот), где аналогия с кражей была бы уместна, поскольку контент НЕ в свободном доступе.
Проверить прям щас не на чем, но у меня иногда прокатывало открытие страницы как ифрейма или как (внезапно) картинки, то есть если вместо
https://web.archive.org/web/ГГГГММДДЧЧММСС/http://example.org/
написать
https://web.archive.org/web/ГГГГММДДЧЧММССif_/http://example.org/
или
https://web.archive.org/web/ГГГГММДДЧЧММССim_/http://example.org/
, то веб-архив может показать страницу, игнорируя все эти robots.txt
https://web.archive.org/web/ГГГГММДДЧЧММСС/http://example.org/
написать
https://web.archive.org/web/ГГГГММДДЧЧММССif_/http://example.org/
или
https://web.archive.org/web/ГГГГММДДЧЧММССim_/http://example.org/
, то веб-архив может показать страницу, игнорируя все эти robots.txt
Владельцы сайтов имеют на это право.
У этого эффекта заднего числа, оказывается есть ещё и очень гадкие последствия:
- Был сайт boostcookbook.com о Boost.
- Сайт прекратил существование, но остался в архиве.
- Домен приобрёл новый владелец и там теперь какая-то вода из области HR и подобного.
- У нового сайта Wayback Machine запрещён в robots.txt, и теперь в архиве недоступен старый сайт.
P.S. Метод, описанный andreymal ниже, сработал в данном случае.
>Если вместо «404 not found» определена иная ошибка или сайт редиректит пользователя вместо пропавшей или несуществующей странички в другое место, новая функция не будет работать.
Фух, слава богу, а то мне поплохело от идеи что меня вместо штатной страницы будет на заглушку кидать.
А так вообще интересная функция, только вот вопрос — готов ли archive.org к таким дополнительным нагрузкам?
Фух, слава богу, а то мне поплохело от идеи что меня вместо штатной страницы будет на заглушку кидать.
А так вообще интересная функция, только вот вопрос — готов ли archive.org к таким дополнительным нагрузкам?
Sign up to leave a comment.
Тестовая функция Firefox загружает страницу из «Архива Интернета» вместо ошибки 404