Как стать автором
Обновить

Комментарии 9

Все, ребята, я там залип надолго…
Спасибо за интересную статью. А то я и не догадывался о существовании такого сервиса
Кроме него существует с десяток других сервисов, которые тоже архивируют веб: это индексы поисковых систем и узкоспециализированные архивы вроде Archive-It, UK Web Archive, Web Cite, ArchiefWeb, Diigo и др.

Вспоминается небезызвестный чебоксарский центр скачивания интернета)
от 35% до 90% всех URI в интернете имеют хотя бы одену копию в архиве

Ничего себе разброс. Почему так и как это понимать?
Компания Google не в силах проанализировать все URL, так что компания решила считать количество документов в интернете бесконечным.
image
Считать бесконечным при реализации алгоритмов поиска и т. д., то есть это легитимное приближение.
А ведь интернет получился как вселенная, ускоряющееся расширение пространства делает его убегающим от обозреваемого горизонта, технически бесконечным.
Уж не знаю, сколько там заархивировано, но всякий раз, когда мне надо что-то там посмотреть, там этого нифига нету…
Интересно еще то, что относительно новые страницы «Интернет архив» индексирует и хранит с CSS, JS и изображениями.
Не со всеми конечно, однако многие страницы можно просмотреть почти полностью в том виде, в котором они были на момент их «фотографирования».
Если кому интересно вот прямая ссылка на оригинальный документ в PDF-виде: arxiv.org/pdf/1212.6177v2.pdf
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории