Почему у нас осталось так мало от раннего интернета? / Хабр

Спустя почти пять лет существования интернета была сделана первая организованная попытка архивировать его. Большая часть наших ранних действий в онлайне исчезла навсегда.

В 2005 году Алексу Тью пришла в голову идея на миллион долларов. 20-летний оболтус игрался с идеями, призванными заплатить за надвигающуюся трёхлетнюю учёбу в магистратуре по бизнесу. Тью волновался, что имеющиеся у него долги неимоверно раздуются. Он нацарапал у себя в блокноте: «Как стать миллионером».

Двадцать минут спустя он придумал, как ему казалось, ответ на этот вопрос.

Тью создал веб-сайт под названием "Домашняя страница на миллион долларов" [The Million Dollar Homepage]. Модель сайта была неприлично простой: на нём можно было увидеть миллион пикселей рекламного пространства, и покупать их предлагалось блоками по 100 штук, по $1 за штуку. Когда вы их покупали, они оставались вашими навечно. После продажи миллионного пикселя Тью стал бы миллионером. По крайней мере, план был такой.

Страница была запущена 26 августа 2005 года, после того, как Тью потратил 50 евро на регистрацию домена и настройку хостинга. Рекламщики покупали пиксели и предоставляли линк, небольшое изображение и немного текста, появлявшегося при наведении курсора на изображение.

Примерно через месяц, благодаря сарафанному радио и увеличению внимания со стороны СМИ, страница принесла Тью более $250 000 долларов. В январе 2006 последние 1000 пикселей были проданы на аукционе за $38 100. Тью заработал свой миллион.

Страница до сих пор существует, спустя почти полтора десятилетия после появления. Многие из клиентов – британская газета The Times, турагентство Cheapflights.com, портал Yahoo! и рок-дуэт Tenacious D – получили 15 лет рекламы с одного платежа. На сайт всё ещё ежедневно заходят по нескольку тысяч людей. Вероятно, он был неплохим проектом для вложения денег.

Сегодня Тью, занимающийся приложением для медитации и «осмысленности» [mindfulness] Calm, и правда стал миллионером. Однако созданная им страница стала также и кое-чем ещё: живым музеем ранней эры интернета. Пятнадцать лет, возможно, покажутся небольшим сроком, но с точки зрения интернета – это целая геологическая эпоха. Порядка 40% ссылок со страницы сегодня ведут на мёртвые сайты. Многие другие указывают на совершенно новые домены, поскольку их старые URL проданы новым владельцам.

«Страница на миллион» демонстрирует почти невидимый распад интернета раннего периода. В офлайне закрытие, допустим, местной газеты, часто широко освещают. Однако онлайн-сайты умирают, часто безо всяких фанфар, и первым признаком их отсутствия, с которым вы, возможно, столкнётесь, будет то, что пройдя по ссылке, вы обнаружите пустую страницу.

***

Лет 10 назад я посвятил пару лет своей жизни блогу о рок-музыке и постам в музыкальном разделе сайта AOL, расползавшегося интернет-пионера, ныне принадлежащего компании Verizon. Я редактировал или писал сотни онлайн-обзоров, историй о музыкальных магазинах, интервью с артистами и статей-списков. Тогда Facebook и Twitter уже привлекали достаточно большую аудиторию, а смартфоны связывали нас с интернетом по пути с работы домой; веб-серфинг стал круглосуточным.

Можно было бы логично заключить, что если бы мне нужно было продемонстрировать доказательства моей работы, достаточно было бы провести один поиск в Google. Но это не так. В апреле 2013 года AOL внезапно закрыла все музыкальные сайты – и результаты совместных трудов десятков редакторов и сотен авторов за много лет. Из этого мало что осталось, лишь несколько статеек, сохранившихся в интернет-архиве – некоммерческом фонде из Сан-Франциско, запущенном в конце 1990-х программистом Брюстером Кейлом.

Это самая известная из организаций, пытающихся сохранить последние следы остатков первого десятилетия присутствия человечества в интернете, пока они ещё не исчезли навсегда.

Дэйм Венди Холл, исполнительный директор Института веб-наук из Саутгемптонского университета, демонстрирует чёткую позицию по поводу работы архива: «Если бы не они, у нас не было бы никаких ранних материалов, — говорит она. – Если бы Брюстер Кейн не открыл бы интернет-архив и не начал сохранять всё это – не спрашивая ни у кого разрешения – мы бы потеряли всё».

Дэйм Венди говорит, что у архивов и национальных библиотек есть опыт по спасению книг, газет и периодических изданий, потому что печать существует давно. Однако появление интернета – и то, как быстро он стал новой массовой формой коммуникаций и самовыражения – могло застигнуть их врасплох. С тех пор во многих областях были сделаны различные попытки догнать архивирование интернета. «В британской библиотеке обязательно должна быть копия каждой из когда-либо опубликованных местных газет», — говорит она. А когда газеты перешли от печатного вида в веб, архивация приняла другую форму. Являются ли веб-сайты настолько же ценными ресурсами, как предшествовавшие им газеты?

Газетные архивы тоже уязвимы, их теряют, когда издательство закрывается или сливается с другими. «У большинства газет, как я думаю, должен быть какой-то архив, — говорит она. – Но если его не обслуживать надлежащим образом, он может быть утерян».

Одна из основных проблем попыток архивации интернета состоит в том, что он не сидит на месте. Каждую минуту – каждую секунду появляется больше фотографий, постов в блогах, видеороликов, новостей, комментариев. И хотя цена цифровых носителей значительно упала, архивирование всего этого материала всё равно стоит денег. «Кто будет платить за это? – спрашивает Дейм Венди. – Мы генерируем намного больше материала, чем раньше».

В Британии за цифровое сохранение частично отвечает Британская библиотека. Она управляет веб-архивом UK Web Archive, собирающим информацию с сайтов с их разрешения с 2004 года. Менеджер архива по вовлечениям Джейсов Веббер говорит, что эта проблема куда крупнее, чем кажется большинству людей.

«Дело не только в раннем материале. Большая часть интернета не сохраняется, — говорит он. – Интернет-архив начал вести архивы страниц в 1996. Через пять лет после появления первых веб-страниц. Из той эпохи ничего не было скопировано».

Даже первая веб-страница, созданная в 1991 году, не сохранилась; то, что вы можете видеть на странице WWW-консорциума, это копия, сделанная год спустя.

Большую часть первых пяти лет существования веба адрес большей части опубликованных в Британии материалов заканчивался на .ac.uk – это были научные статьи, написанные учёными. Только в 1996 году в вебе начали появляться сайты более общего назначения, когда коммерческие сайты начали опережать по количеству научные.

Британская библиотека опрашивает каждый домен раз в год – сохраняя всё, что было опубликовано в Британии. «Мы пытаемся сохранить всё, но делаем это только раз в год. Однако максимальный объём для многих сайтов устанавливается в 500 Мб; это покрывает много мелких сайтов, однако там может поместиться лишь несколько видео, и до ограничения дело доходит довольно быстро». Новостные сайты, типа BBC News, архив обходит чаще. Веббер говорит, что библиотека пыталась создать как можно более полную картину таких событий, как Брекзит, лондонская олимпиада 2012 года и 100-я годовщина Первой мировой войны.

«Думаю, что есть очень мало понимания того, что что-то исчезло, — говорит Веббер. – Цифровой мир очень эфемерен, мы смотрим в телефон, там всё меняется, и мы не особенно задумываемся об этом. Но сейчас люди начинают больше узнавать о том, как много мы, возможно, теряем».

Однако, говорит Веббер, организации имеют право собирать только публично доступный материал; ещё большее количество исторически важных данных лежит в личных архивах у людей, например, на их жёстких дисках. Но мало кто из нас хранит их для потомства.

«В британской библиотеке полно писем из личной переписки. Это почта политиков, любовные послания – и такие вещи очень важны для некоторых».

Мы считаем, что материал, который мы постим в соцсети, всегда будет храниться там, и будет доступен по нажатию клавиши. Однако недавняя потеря 12 лет музыки и фотографий одним из первых социальных сайтов MySpace – который когда-то был самым популярным в США – демонстрирует, что даже материалы, хранящиеся на крупнейших сайтах, не находятся в безопасности.

И даже сервисы Google не застрахованы. Google+, попытка поискового гиганта запустить конкурента Facebook, закрылась 2 апреля. Все ли её пользователи сделали резервные копии фотографий и памятных записей?

«Размещая свои фотографии на Facebook, вы не архивируете их, потому что когда-нибудь Facebook перестанет существовать», — говорит Веббер. Если вы сомневаетесь во временной природе веба, потратьте несколько минут и прочешите страницу на миллион долларов. Это свидетельство того, как быстро исчезает наше онлайн-прошлое.

У потери данных есть и другая сторона. Дэйм Венди указывает на тот факт, что отсутствие архива новостных сайтов может привести к выборочному подходу к истории – к примеру, новые правительства могут решить не сохранять в архивах истории, выставляющие их в дурном свете.

«При каждой смене правительства или реструктуризации квазиавтономных неправительственных организаций закрываются сайты, — говорит Джейн Винтерс, профессор цифровых гуманитарных наук Лондонского университета. – Или посмотрите на сайты избирательных кампаний, которые по природе своей созданы временными».

Иногда потерянные сайты представляют собой отзвук более серьёзных изменений; смерть и рождение целых народов. «Так произошло с Югославией. Доменом верхнего уровня был .yu, и после развала страны он исчез. Один исследователь пытается восстановить то, что там было до распада, — говорит она. – Политика так часто связана с технологиями».

Во всём этом, возможно, есть небольшая светлая сторона. «У меня в семье есть историки, и мы всегда сталкивались с пробелами в исторических записях – о некоторых из них мы знаем, а о некоторых даже не подозреваем».

Дэйм Венди Холл также видит в этой ситуации параллели с физическим миром. Когда ей было 15, в конце 1960-х, она была одной из гостей в аудитории музыкального шоу BBC Top of the Pops.

Шоу показывали на рождество. «Был включён телевизор, и моя мама сказала: 'Смотри, вон ты!' Но я пропустила этот момент. Потом я ездила на BBC и пыталась получить у них копию записи – но они перезаписали эту передачу. Так я её и не увидела».