alizar7 янв 2013 в 14:06

Какая часть веба заархивирована

3 мин

17K

Поисковые технологии *

+21

Комментарии 9

softh12 7 янв 2013 в 14:24

Все, ребята, я там залип надолго…
Спасибо за интересную статью. А то я и не догадывался о существовании такого сервиса

Tranced 7 янв 2013 в 14:28

Кроме него существует с десяток других сервисов, которые тоже архивируют веб: это индексы поисковых систем и узкоспециализированные архивы вроде Archive-It, UK Web Archive, Web Cite, ArchiefWeb, Diigo и др.

Вспоминается небезызвестный чебоксарский центр скачивания интернета)

YUVladimir 7 янв 2013 в 14:40

от 35% до 90% всех URI в интернете имеют хотя бы одену копию в архиве

Ничего себе разброс. Почему так и как это понимать?

hardex 7 янв 2013 в 14:42

Компания Google не в силах проанализировать все URL, так что компания решила считать количество документов в интернете бесконечным.

int_index 7 янв 2013 в 19:08

Считать бесконечным при реализации алгоритмов поиска и т. д., то есть это легитимное приближение.

Vokabre 7 янв 2013 в 15:12

А ведь интернет получился как вселенная, ускоряющееся расширение пространства делает его убегающим от обозреваемого горизонта, технически бесконечным.

0xC0CAC01A 7 янв 2013 в 23:12

Уж не знаю, сколько там заархивировано, но всякий раз, когда мне надо что-то там посмотреть, там этого нифига нету…

Rathil 8 янв 2013 в 13:42

Интересно еще то, что относительно новые страницы «Интернет архив» индексирует и хранит с CSS, JS и изображениями.
Не со всеми конечно, однако многие страницы можно просмотреть почти полностью в том виде, в котором они были на момент их «фотографирования».

itforge 9 янв 2013 в 18:56

Если кому интересно вот прямая ссылка на оригинальный документ в PDF-виде: arxiv.org/pdf/1212.6177v2.pdf

Зарегистрируйтесь на Хабре, чтобы оставить комментарий