Хранители интернета

https://arstechnica.com/gaming/2018/10/the-internets-keepers-some-call-us-hoarders-i-like-to-say-were-archivists/
  • Перевод
«Некоторые называют нас «Плюшкиными» — мне нравится говорить, что мы архивисты.»

Директор Wayback Machine Марк Грэм изложил масштаб всеми любимого архива


image

Просматриваем Wayback Machine на конференции Online News Association 2018

Остин, Техас. Как бы сильно абонентские услуги не хотели вас в этом убедить, но не все можно найти на Amazon или Netflix. Хотите, например, прочитать книгу судьи Бретта Кавано (или даже их скандально известный ежегодник)? Любопытно посмотреть кучу винтажных рекламных постеров с курением? Как насчет просмотра самой большой коллекции тибетской буддийской литературы в мире? На сегодняшний день есть одно место, где вы можете все это сделать, и это не Google или какие-то пиратские сайты, которые вы наверняка (часто) посещаете.

«У меня есть правительственное видео о том, как мыть руки или готовиться к ядерной войне, — говорит Марк Грэм, директор Wayback Machine в Internet Archive. «Мы могли бы легко составить список .ppt-файлов на всех сайтах с доменом .mil, Military Industrial PowerPoint Complex».

Грэм недавно поговорил с несколькими небольшими группами участников конференции Online News Association 2018 и Ars Technica повезло быть там. Позже он сделал полную презентацию конференции, которая теперь доступна в аудиоформате. И основная мысль заключается в том, что масштаб Internet Archive сегодня может быть так же трудно понять, как масштаб самого интернета.

Некоммерческое физическое пространство по-прежнему остается легким для понимания, по крайней мере, так задумывал его Грэм. Сегодня вся деятельность Интернет Архива ведется из одной старой церкви (даже скамьи не убрали) в Сан-Франциско силами примерно двхусот человек. В архиве также находится ближайший склад для хранения физических носителей, не только книг, но и таких вещей, как виниловые пластинки. Грэм шутит, что там основной единицей измерения является «контейнер для доставки». Архив получает такое количество материала каждые две недели.

В настоящее время компания является вторым по величине сканером книг в мире, после Google. Грэм добился того, чтобы текущая сумма сканирований насчитывала свыше четырех миллионов. В архиве даже есть список желаний для его следующих 1,5 миллионов сканирований, включая все, что цитируется в Википедии. Wayback Machine старается защитить вас от, того, что выскочит 404 ошибка во время перехода по ссылокам из Википедии (Грэм недавно сказал BBC, что боты Wayback восстановили почти шесть миллионов страниц, потерянных из-за сбоя ссылок ради этого). Сегодня книги, опубликованные до 1923 года, можно бесплатно скачать через Internet Archive, и впоследствии можно позаимствовать цифровую копию многих из этих книг

image


Перевод твита:
Internet Archive: Более 9 миллионов неправильных ссылок в Википедии исправлены
WikiResearch: Так благодарны за необыкновенную работу, которую проделывают наши друзья в @internetarchive для борьбы с 404 ошибкой и в цифровом виде сохраняют миллионы ссылок на сайты и источники, которые цитируют википедиане, поскольку они создают самую большую в мире энциклопедию.

Конечно, в наши дни Internet Archive предлагает гораздо больше, чем просто текст. Его сборник новостей охватывает более 1,6 млн. новостных программ с такими инструментами, как возможность поиска слов в титрах и доступа к последним новостям (трансляции становятся доступными через 24 часа, а затем предоставляются посетителям в виде двухминутных отрывков с возможностью поиска). Растущая аудио и музыкальная часть Internet Archive охватывает радио-новости, подкастинг и физические медиа (например, сборник из 200 000 экземпляров 78-х годов, недавно пожертвованный библиотекой Бостона). И, как пишет Ars, организация может похвастаться обширной классической коллекцией видеоигр, которую каждый может загружать в эмулятор на основе браузера для исследований или отдыха. Официально этот раздел включает в себя около 300 000+ наименований, «поэтому вы можете фактически играть в Oregon Trail на старом компьютере Apple C computer в браузере прямо сейчас — нет рекламы, нет отслеживания пользователей», — говорит Грэм.

«Некоторые могут назвать нас «Плюшкиными»», — говорит он. «Мне нравится говорить, что мы архивисты».

В целом, Грэм говорит, что в Internet Archive добавляется четыре петабайта информации в год (это четыре миллиона гигабайт для контекста). Текущие данные организации составляют 22 петабайта, но Internet Archive фактически владеет 44 петабайтами. «Потому что мы параноики, — говорит Грэм. «Машины могут выйти из строя, а у нас есть репутация». Это кредо в духе NASA помогло некоммерческой организации выжить после ущерба нанесенного огнем, который обошелся почти в 600 000 долларов — все это без потери архивных данных.

image

30 000 входных данных? Неплохо, и кажется, что боты Wayback Machine, безусловно, увеличили свою привязанность к Ars.

image

С помощью Wayback Machine вы можете вспомнить и задуматься о том как Ars скрыл смерть Стива Джобса еще в октябре 2011 года.

image

Хм… может быть, у меня все еще есть шанс стать Arsian/арсианином, чтобы загрузить 1000-й PDF-файл, захваченный Internet Archive.

Универсальный доступ к знаниям (и к фактам, к огромному количеству фактов)


Общая концепция деятельности Internet Archive на протяжении последних 22 лет была простой: «универсальный доступ ко всем знаниям». В эпоху интернета это означает, конечно, внедрение небольшой армии ботов, и Грэм отмечает, что в Internet Archive всегда есть программное обеспечение собирающее контент. Примерно 7 000 одновременных процессов охватывают всю сеть, чтобы в итоге получать 1,5 миллиарда разных вещей в неделю. Некоторые вещи, такие как домашние страницы Google или The New York Times, могут просматриваться много раз в день; другие можно просматривать менее часто.

«Мы пытаемся получить все, но это сложно, — отмечает Грэм. «Embeds, Javascripts, интерактивные приложения — мы не можем получить некоторые из этих материалов, но мы работаем над этим».

В кэш-память вещей, над которыми мы работаем, входят эфемерные медиа, такие как Snapchat или публичные группы Telegram, а Wayback Machine поддерживает локальные контакты в местах, где некоторые медиа-архивы или серверы могут подвергаться риску (в последнее время Грэм отмечает партнеров в Египте, например).

Результатом всего этого является то, что Wayback Machine превратилась во что-то гораздо более полезное, чем просто былые забавные поездки в LiveJournals. Ars использовал его много раз для разных целей, начиная от перехвата изменений в чистом нейтралитете Comcast, заканчивая тем фактом, что организационное описание Defense Distributed эволюционировало. И Грэм указывает на недавнюю полемику 2018 года, когда президент Трамп написал в твиттере, что Google не способствует хорошему отношению к Соединенным Штатам Америки на своей домашней странице (как это было в прошлом). Прежде чем Google смогли на это ответить, компания обратилась к Internet Archive с простым вопросом — есть ли копия?

«Я люблю Google, но их работа не заключается в том, чтобы делать копии домашней страницы каждые 10 минут», — говорит Грэм. «Это наша работа».

Грэм поделился информацией о том, что Wayback Machine фактически захватила 835 экземпляров главной страницы Google в январе 2018 года. «Таким образом, мы смогли помочь поднять записи. Мы не принимаем ничью сторону, но мы за правду».

Сайт сыграл аналогичную роль, когда Белый дом не так давно удалил все архивы своих бюллетеней, а ряд организаций (не только новостных, но также экологических организации или ACLU), нуждались в них. И материалы, полученные из Wayback Machine, были использованы как доказательства в суде. «Существует много событий, которые происходят с точки зрения времени, — добавляет он. Как бывший вице-президент NBC News (отсюда и его желание присутствовать на ONA, возможно), Грэм также с гордостью указывает на то, что на сайт ссылаются примерно пять раз в день в средствах массовой информации.

Грэм говорит, что для того чтобы улучшить сайт Wayback Machine усердно работает над улучшением своих пользовательских инструментов. В нижней левой части главной страницы Wayback Machine вы найдете, например, общедоступные API. Грэм указывает на то, что люди используют их для создания таких вещей, как дифференциатор, где вы можете взять два скана, расположить бок о бок и увидеть изменения. Другой инструмент, созданный пользователем, который привлек его внимание, позволяет взглянуть на сайт и сделать радиальный древовидный график, чтобы увидеть, как его структура меняется со временем.

Хотя, возможно, самый простой и эффективный инструмент для всех это технология непосредственно от Wayback Machine — сайт позволяет кому-либо вручную отправлять ссылку на Internet Archive для архивирования прямо со своей домашней страницы. «Если я выгуливаю свою кошку в саду, и я вижу историю в новостях Google, вы можете отправить ее на печать. Но сегодня вы также можете отправить ее в Internet Archive», — говорит Грэм. По его оценкам, в итоге может получиться около миллиона снимков в неделю.

«Мы выискиваем информацию в действительно большой сети без обмана, — говорит он. И вне зависимости от того находят что-то боты, или преданный любитель-пользователь архива, все остальные могут просто оценить способность находить контент, что кстати и является изначальной миссией Ars Technica. (К счастью, спустя 20 лет, никто еще не сообщил нам об «очень плохих вещах, таких как NT, Linux и BeOS-контент под одной крышей».)

Перевод: Диана Шеремьёва



image
Про #philtech
#philtech (технологии + филантропия) — это открытые публично описанные технологии, выравнивающие уровень жизни максимально возможного количества людей за счёт создания прозрачных платформ для взаимодействия и доступа к данным и знаниям. И удовлетворяющие принципам филтеха:

1. Открытые и копируемые, а не конкурентно-проприетарные.
2. Построенные на принципах самоорганизации и горизонтального взаимодействия.
3. Устойчивые и перспективо-ориентированные, а не преследующие локальную выгоду.
4. Построенные на [открытых] данных, а не традициях и убеждениях
5. Ненасильственные и неманипуляционные.
6. Инклюзивные, и не работающие на одну группу людей за счёт других.

Акселератор социальных технологических стартапов PhilTech — программа интенсивного развития проектов ранних стадий, направленных на выравнивание доступа к информации, ресурсам и возможностям. Второй поток: март–июнь 2018.

Чат в Telegram
Сообщество людей, развивающих филтех-проекты или просто заинтересованных в теме технологий для социального сектора.

#philtech news
Телеграм-канал с новостями о проектах в идеологии #philtech и ссылками на полезные материалы.

Подписаться на еженедельную рассылку
Philtech Initiative
84,00
Общественное благо через цифровые технологии
Поделиться публикацией

Комментарии 17

    +1
    Да, машина Wayback находится в процессе проверки того, что вы не обнаружите 404 ошибку во время погружения в “кроличью нору” Wiki

    В оригинале звучит как:
    Yes, the Wayback Machine is in the process of making sure you’re not finding 404s during any Wiki rabbithole

    После этого дальше читать не стал, аж затошнило.
    Это самый ужасный перевод MagisterLudi за долгое время.
      –2
      Коллеги, давайте конструктив.
      Предлагайте свой вариант перевода в личку, я оперативно исправлю.
      Материал-то хороший.
        +2
        Вы знаете, невольно вспоминается: «говно-то с орехами!».

        Конструктив простой: вы не умеете в переводы вообще, судя по ретроспективе. Конкретно тут: существительное перевели, все остальное бросили. За контекстом не следите.

        Простейший пример:
        «трансляции запрещаются на 24 часа, а затем предоставляются посетителям в виде двухминутных отрывков с возможностью поиска»

        В оригинале звучит как:
        [...] (broadcasts are embargoed for 24 hours and then delivered to visitors in searchable two-minute chunks) [...]

        Следовало перевести как:
        [...] трансляции становятся доступными через 24 часа [...]

        Или же вот:
        И доказательства от Wayback Machine были приемлемыми в суде

        В оригинале:
        And evidence from the Wayback Machine has been admissible in court.

        Можно было перевести как:
        И материалы, полученные из Wayback Machine, были использованы как доказательства в суде

        И такой шляпы — половина перевода. Вам самому-то приятно такое выкатывать? Вы хоть раз вычитывали всё это дело? Google Translate уже сегодня способен перевести лучше, чем вы.
          –3
          Пишите в личку.
            0
            Не думаю.
            Читатели должны знать, что ваши переводы — дрянь.

            З.Ы.: Я смотрю, вам было лень поправить в тексте даже то, на что вам уже указали в комментариях. Думаю, выводы должны быть очевидны каждому.
              –1
              Благодарю за предложенные варианты перевода. Внес правки.
              Хорошо что вы всем сердцем радеете за качество статей на Хабре.
              Я буду стараться.
                0
                Посты ниже, я смотрю, вы решили проигнорировать.
          +2
          Официально этот раздел включает в себя около 300 000 видеоигр плюс общие названия программ

          Ух какая невиданная щедрость. Не только игры, но и даже их общие названия дали!


          Officially, that section involves 300,000-plus overall software titles

          Ах, так вот что там имелось в виду.


          Человек, который вообще способен так переводить, не должен заниматься переводами, и вдвойне не должен кому-либо эти "переводы" показывать. Оригинальная статья — это "хороший материал", а этот перевод — это неуважение к читателям.

          • НЛО прилетело и опубликовало эту надпись здесь
          0
          Я споткнулся уже на первом обзаце:
          Хотите, например, прочитать книгу судьи Бретта Кавано

          В оригинале:
          Want to read Brett Kavanaugh buddy Mark Judge’s old book, for instance

          Judge — фамилия автора книги, который, в свою очередь, является приятелем Бретта.
          +1
          Допустим, пройдет еще 100 лет, а Гугл и прочие закроют сами себя в один момент, как это произошло с гугл+ и другими сервисами.
          А практически все ссылки в интернете будет вести на Wayback Machine, которая будет работать по подписке.
            +1
            Идея Wayback Machine шикарна, но вот реализация, честно говоря, разочаровывает.
            Последний раз в ней искал один рассказ с популярного он-лайн сайта рассказов самиздатских — сайт в архиве есть, страница оглавления расказа находится, а вот самих глав нет…
            И подобное было не раз — сайты в архиве есть, на один-два уровня от корня открываются, а дальше нет. При этом в гугле эти же сайты индексированы полностью, то есть это не запрет индексации веб-мастером.
              +1
              Мой провайдер блокирует доступ к Интернет-архиву (и http, и https). А ваш?
                0
                Поначалу блочил, потом отпустил
                +1
                Основной операцией теперь управляет старая церковь (церковные скамьи по-прежнему нетронуты)


                Эммм… Какая же основная операция у WBM и почему ею управляет церковь?
                  –1
                  Очередной надмозг.

                  Оригинал звучит как:
                  The main operation now runs out of an old church (pews still intact)
                  Один из вариантов нормального перевода:
                  В качестве «офиса» выступает старая церковь (в которой по-прежнему стоят скамьи)
                    +1
                    Спасибо, исправил.

                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                Самое читаемое