Команда Гарвардской школы права изучила проблему «вымирания» ссылок и дрейфа контента в интернете. Исследователи проанализировали гиперссылки в статьях газеты New York Times начиная с запуска сайта NYT в 1996 году и до середины 2019 года. Исследование показало, что около четверти ссылок в статьях NYT нерабочие.
В 2014 году Гарвардская школа права уже изучала «мертвые» ссылки. Тогда выяснилось, что почти половина всех гиперссылок в заключениях Верховного суда ведет к контенту, который либо изменился с момента публикации, либо исчез из интернета. В новом исследовании команда из Гарварда изучила более 550 тысяч публикаций NYT, содержавших 2,2 миллиона ссылок на внешние сайты. Из них 72% были глубокими — то есть вели на конкретный контент.
Команда обнаружила, что около 25% ссылок в статьях NYT, которые раньше указывали на какой-то ресурс, теперь не работают. Эта проблема коснулась 53% статей, выходивших в NYT за последние 25 лет, при этом в материалах за 2018 год недоступными стали 6% ссылок, а за 1998-й — целых 72%.
Авторы исследования отмечают, что в некоторых разделах NYT процент «мертвых» URL-адресов намного выше. В разделе «Спорт», например, почти втрое больше неактивных ссылок, чем в разделе The Upshot. Эта разница в значительной степени связана со временем: средний возраст ссылки в The Upshot составляет 1450 дней, в разделе «Спорт» — 3196 дней.
Чтобы определить, какие разделы страдают больше всех, команда разработала метрику Relative Rot Rate («Относительная скорость гниения», RRR). Из пятнадцати разделов в которых больше всего статей, у раздела «Здоровье» были самые низкие показатели RRR. Раздел «Путешествия» показал самый высокий уровень «вымирания»: более 17% ссылок в статьях этого раздела оказались битыми.
Дрейф контента также является серьезной проблемой. Из-за этого явления ресурс по ссылке может расходиться со статьей. В качестве примера исследователи привели материал 2008 года о гонке в Конгресс со ссылкой на члена городского совета Нью-Йорка и на его страницу на сайте совета. Сегодня, щелкнув ту же ссылку, читатель перейдет на сайт действующего члена совета округа.
Чтобы определить распространенность дрейфа контента, команда изучила 4500 неповрежденных URL-адресов. 13% ссылок из этой выборки значительно изменились с момента публикации; при этом ссылки из статей за 2009 год ведут на изменившиеся ресурсы в 25% случаев, в статьях за 2019 год — в 4% случаев.
Как указывают авторы статьи, для предотвращения потери ресурса по ссылке можно использовать сервис The Wayback Machine, предоставленный Архивом Интернета. В этом случае при утере страницы ссылка откроет ее копию из архива. Кроме того, в 2013 году Гарвардская школа запустила проект Perma.cc, который позволяет создать архивную версию страницы со ссылкой на первоисточник.