Достаём потерянные статьи из сетевых хранилищ

    Решение рассматривается (пока) только для одного сайта — того, на котором мы находимся. Идея появилась в результате того, что один пользователь сделал юзерскрипт, который переадресует страницу на кеш Гугла, если вместо статьи видим «Доступ к публикации закрыт». Понятно, что это решение будет работать лишь частично, но полного решения пока не существует. Можно повысить вероятность нахождения копии выбором результата из нескольких сервисов. Этим стал заниматься скрипт HabrAjax (наряду с 3 десятками других функций). Теперь (с версии 0.859), если пользователь увидел полупустую страницу, с которой можно перейти лишь на главную, в личную страницу автора (если повезёт) и назад, юзерскрипт предоставляет несколько альтернативных ссылок, в которых можно попытаться найти потерю. И тут начинается самое интересное, потому что ни один сервис не заточен на качественное архивирование одного сайта.

    Кстати, статья и исследования порождены интересным опросом А вас раздражает постоянное «Доступ к публикации закрыт»? и скриптом пользователя dotneter — комментарий habrahabr.ru/post/146070/#comment_4914947.

    Требуется, конечно, более качественный сервис, поэтому, кроме описания нынешней скромной функциональности (вероятность найти в Гугл-кеше и на нескольких сайтах-копировщиках), поднимем в статье краудсорсинговые вопросы — чтобы «всем миром» задачу порешать и прийти к качественному решению, тем более, что решение видится близким для тех, кто имеет сервис копирования контента. Но давайте обо всём по порядку, рассмотрим все предложенные на данный момент решения.

    Кеш Гугла


    В отличие от кеша Яндекса, к нему имеется прямой доступ по ссылке, не надо просить пользователя «затем нажать кнопку „копия“». Однако, все кеширователи, как и известный archive.org, имеют ряд ненужных особенностей.

    1) они просто не успевают мгновенно и многократно копировать появившиеся ссылки. Хотя надо отдать должное, что к популярным сайтам обращение у них частое, и за 2 и более часов они кешируют новые страницы. Каждый в своё время.

    2) далее, возникает такая смешная особенность, что они могут чуть позже закешировать пустую страницу, говорящую о том, что «доступ закрыт».

    3) поэтому результат кеширования — как повезёт. Можно обойти все такие кеширующие ссылки, если очень надо, но и оттуда информацию стоит скопировать себе, потому что вскоре может пропасть или замениться «более актуальной» бессмысленной копией пустой страницы.

    Кеш archive.org


    Он работает на весь интернет с мощностями, меньшими, чем у поисковиков, поэтому обходит страницы какого-то далёкого русскоязычного сайта редко. Частоту можно увидеть здесь: wayback.archive.org/web/20120801000000*/http://habrahabr.ru
    Да и цель сайта — запечатлеть фрагменты истории веба, а не все события на каждом сайте. Поэтому мы редко будем попадать на полезную информацию.

    Кеш Яндекса


    Нет прямой ссылки, поэтому нужно просить (самое простое) пользователя нажать на ссылку «копия» на странице поиска, на которой будет одна эта статья (если её Яндекс вообще успел увидеть).

    Как показывает опыт, статья, повисевшая пару часов и закрытая автором, довольно успешно сохраняется в кешах поисковиков. Впоследствии, скорее всего, довольно быстро заменится на пустую. Всё это, конечно, не устроит пользователей веба, который по определению должен хранить попавшую в него информацию.

    Yahoo Pipes


    pipes.yahoo.com/pipes/search?q=habrahabr+full&x=0&y=0 и прочие.
    Довольно интересное решение. Те, кто умеет их настраивать, возможно, полноценно решат задачу архивирования RSS. Из имеющегося, я не нашёл пайпов с поиском статьи по её номеру, поэтому пока нет прямой ссылки на такие сохранённые полные статьи. (Кто умеет с ним работать — прошу изготовить такую ссылку для скрипта.)

    Многочисленные клонировщики


    Все из них болеют тем, что не дают ссылки на статью по её номеру, не приводят полный текст статьи, а некоторые вообще ограничиваются «захабренным» или «настолько ленивы», что копируют редко (к примеру, раз в день), что актуально не всегда. Однако, если хотя бы один автор копировщика подкрутит движок на сохранение полноценного и актуального контента, он окажет неоценимую услугу интернету, и его сервис займёт главное место в скрипте HabrAjax.

    Из живых я нашёл пока что 4, некоторые давно существовавшие (itgator) на данный момент не работали. В общем, пока что они почти бесполезны, потому что заставляют искать статью по названию или ключевым словам, а не по адресу, по которому пользователь пришёл на закрытую страницу (а по словам отлично ищет Яндекс и не только по одному их сайту). Приведены в скрипте для какой-нибудь полезной информации.

    Задача


    Перед сообществом стоит задача, не утруждая организаторов сайта, довести продукт до качественного, не теряющего информацию ресурса. Для этого, как правильно заметили в комментариях к опросу, нужен архиватор актуальных полноценных статей (и комментариев к ним заодно).

    В настоящее время неполное решение её, как описано выше, выглядит так:

    Если искать в Яндексе, то подобранный адрес выведет единственную ссылку (или ничего):

    Нажав ссылку «копия», увидим (если повезёт) сохранённую копию (страница выбрана исключительно для актуального на данный момент примера):


    В Гугле несколько проще — сразу попадаем на копию, если тоже повезёт, и Гугл успел сохранить именно то, что нам надо, а не дубль отсутствующей страницы.

    Забавно, что скрипт теперь предлагает «выбор альтернативных сервисов» и в этом случае («профилактические работы»):


    Жду предложений по добавлению сервисов и копировщиков (или хотя бы проектов) (для неавторизованных — на почту spmbt0 на известном гуглоресурсе, далее выберем удобный формат).

    UPD 23:00: опытным путём для mail.ru было выяснено строение прямой ссылки на кеш:
    'http://hl.mailru.su/gcached?q=cache:'+ window.location
    
    Знатоки или инсайдеры, расскажите, что это за ссылка, насколько она стабильна (не изменится ли, например, домен 3-го уровня), что значит приставка «g»-cached? Значит ли это кеш Гугла или это кеш движка Gogo? Пример.

    Добавил ссылки мейла и ВК в обновление скрипта (habrAjax) (0.861), теперь там — на 2 строчки больше.
    Share post

    Similar posts

    Comments 10

      0
      Лень разбираться в скрипте, не подскажете этот простой способ добраться до кэша гугла?
        +3
        Гугл, Яндекс и вебархив, чтобы ответить на все похожие вопросы:
        jQuery(document.body).html('<a target=_blank href="'
        +'http://webcache.googleusercontent.com/search?q=cache:'
        	+ window.location +'">Google search cache</a><br> <a href="'
        +'http://liveweb.archive.org/' + window.location
        	+'" target=_blank>archive.org</a><br>'
        +'<a href="http://yandex.ru/yandsearch?text='+ window.location +'&site=habrahabr.ru&wordforms=exact'
        	+'" target=_blank>Яндекс (далее посмотреть ссылку "копия")</a><br>');
        

          +1
          cache:url
          +1
          Странно, что никто не вспомнил про Вконтакте. Там в группе, посвященной хабру, можно прочесть статью с закрытым доступом. При публикации сюда, парсер vk делает из неё свой вариант без лишней информации.
            0
            Есть ряд минусов:
            1) статью можно, комментарии нельзя;
            2) статья имеет шифрованный адрес; например та, что взята для примера — vk.com/habr?w=away-20629724_150337. Поэтому нельзя её вытащить просто по адресу. Но во второй эшелон, к копировщикам, эту ссылку положу, спасибо.
            3) надо иметь авторизацию VK, чтобы увидеть кнопку «Просмотреть» с кешем ВК, а искать придётся просто в ленте, глазами. Правда, поиск ВК позволил найти эту статью по названию, в разделе «Новости», что тоже есть признак 2-го эшелона. (Первым вывел клон из некоего ресурса «Компьютерный доктор +». Видимо, просто из-за хронологии поиска. Ссылка.)
              0
              (2.1… а без авторизации по ссылке эту статью с шифрованным адресом загрузить не удаётся — отображается просто лента, а поверх неё — иконка ожидания посреди экрана, никуда не исчезающая (явный фейл разработчиков), что, конечно хуже, чем даже сайт рядового копировщика.)
                0
                М-м, да тут ещё интереснее — даже с авторизацией нельзя просмотреть эту ссылку из пункта 2, можно только по нажатию кнопки «Просмотреть» из страницы ВК. Уж не знаю, баг или суперфича такая, чтобы никто снаружи контент ВК не смотрел. И это ожидание блокирует всю страницу, ссылки на ней не работают. Но кому нужен такой ресурс, что его содержимое нельзя посмотреть по ссылке??… Но по рефрешу страницы (А5) контент, всё же, показывается (бр-р Fx12, Win), видимо, просто баг.
            +2
            RSS feed feeds.feedburner.com/xtmb/hh-full достающий полную статью + Google Reader. Все что в эту связку попало останется там на долгое время.
              0
              А по-хорошему для скрытых/удаленных статей Хабру стоило выдавать HTTP статус 403/404 соответственно. Но этого мы вряд ли дождемся :(
                0
                Нельзя ли этот функционал выделить отдельно от скрипта?

                Only users with full accounts can post comments. Log in, please.