Веб-архив: импортозамещение

    Понадобилось найти старую версию одного сайта. В Wayback Machine (https://archive.org/web/) версии от нужной даты не оказалось, и я решил поискать альтернативные архивы интернетов. В основном находились сервисы, реализующие идею «вы нам дайте URL, а мы его заархивируем» (типа уважаемого мной http://archive.md), то есть совсем не то, что было нужно в данный момент.

    И тут вдруг находится искомое — http://web-arhive.ru/ Сначала порадовался за соотечественников, сделавших полезный сервис, но через несколько минут меня начали терзать смутные сомнения…

    При внимательном рассмотрении даты создания снимков на archive.org и на web-arhive.ru оказались полностью совпадающими. Поковырявшись ещё, я сделал вывод, что web-arhive.ru представляет собой прокси: получает запрос, пересылает его на archive.org, парсит ответ, вычищает из него интерфейсные куски и все упоминания о Wayback Machine, меняет URL ссылок внутри на свои, заворачивает в собственный интерфейс и отдаёт ничего не подозревающему пользователю.

    Интересно, как к этому отнесётся archive.org, когда узнает? Во втором абзаце правил использования сказано: «Access to the Archive’s Collections is provided at no cost to you and is granted for scholarship and research purposes only.»

    Сайт выглядит так (с отключённым блокировщиком рекламы):

    image

    Смысл его существования, видимо, сводится к ссылке «Заверить сайт у нотариуса».

    Также в глаза бросается нажористый шильдик «Зарегистрировано в Роспатент, рег №2016616556».
    Стало любопытно почитать, что же там зарегистрировано, и…

    http://patinfo.ru/files/fips/pevm2016/_TXT/2016616556.txt
    РОССИЙСКАЯ ФЕДЕРАЦИЯ
    ФЕДЕРАЛЬНАЯ СЛУЖБА ПО ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ
    ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ ЭВМ

    Номер регистрации (свидетельства): 2016616556

    Дата регистрации: 15.06.2016

    Номер и дата поступления заявки: 2016612809 29.03.2016

    Дата публикации: 20.07.2016

    Контактные реквизиты:
    (8-473)222-67-48, bastionvrn@yandex.ru

    Авторы:
    Седых Евгений Николаевич,
    Дубинин Сергей Викторович

    Правообладатель:
    Седых Евгений Николаевич

    Название программы для ЭВМ:
    Программный комплекс по доступу к архивным копиям сайтов в сети Интернет «Веб-архив.ру» версия 1.0

    Реферат:
    Программный комплекс предназначен для доступа к архивным копиям страниц (сайтов) в сети Интернет, хранящимся в архиве Интернет, в том числе текста, фотоизображений, графических изображений, размещенных на страницах сайтов. Программный комплекс обеспечивает выполнение следующих функций: направление запроса к архиву Интернет в отношении архивной копии страницы, адрес которой задается пользователем в интерфейсе программного комплекса; получение ответа от архива Интернет о количестве, дате и времени архивных копий страницы, адрес которой задан пользователем; отображение архивной копии страницы в сети Интернет в интерфейсе браузера в том виде, в котором данная страница существовала на дату, выбранную пользователем из доступных дат; инициирование процедуры автоматической фиксации информации, отображаемой на архивной копии заданной страницы в виде графического образа (скриншота) заданной страницы.

    Тип реализующей ЭВМ: Сервер

    Язык программирования: РНР

    Вид и версия операционной системы: FreeBSD 8.3-STABLE

    Объем программы для ЭВМ: 355 Мб

    В принципе, всё честно написано про это чудо-ПО (вернее даже, целый программный комплекс, это вам не хрен собачий!) Ах, да, они ещё и скриншотик умеют делать. Ладно, хоть что-то новое от себя привнесли.

    Можно было бы и не докапываться особо до них, но:
    — они на первых местах в Гугле и Яндексе по запросам типа «веб архив», «архив сайтов», «архив интернета» (где-то сразу под archive.org, а где-то и вообще на первом месте),
    — люди воспринимают web-arhive.ru как самостоятельный сервис (например, https://qna.habr.com/q/440257) и публикуют ссылки на архивные страницы на нём,
    — разные SEO-информационные сайты говорят про от 600 до 2300 уникальных посетителей в день.
    То есть, это не маргинальная фиговина в дальнем углу интернета, а что-то, путающееся у людей под ногами.

    Так-то!

    UPD


    В комментариях жалуются на слово «импортозамещение» в заголовке.

    Не воспринимайте его как «по заказу государства». Оно имелось в виду в ироничном смысле. Как по мне, один в один тот случай, когда на мониторах логотипы переклеивали.
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 36

      +11

      А откуда такая уверенность, что это "импортозамещение", а не выпускной проект студента технического вуза?

        +7
        Слово «импортозамещение» было употреблено на правах сарказма.
        +7
        Энциклонги
          +2
            +13
            Ах, да, они ещё и скриншотик умеют делать. Ладно, хоть что-то новое от себя привнесли.

            Веб-архив умеет и скриншоты.
            А от себя они принесли на лопате:
              +3
              Спасибо! Это вообще самая мякотка!
              +5
              Это далеко не первый и не последний сайт, который паразитирует на имеющемся проекте.
              Одной только википедии «зеркал» немеряно существует.

              А тут ещё и поисковики, которые подсовывают рекламные ссылки в результаты поиска так, что различия почти не видно — только маленькая иконка «реклама».
                0
                  +4
                  У меня наконец-то пропал кару из первой страницы. Как же он задолбал в прошлом году.
                    +5
                    Больше всего раздражают сайты, которые вылазят при слове «скачать» в поиске. Они что угодно скачать предлагают. Бесплатно, без смс, номер телефона введи только. Ну или экзешник скачай сперва.
                    0

                    Я его репортил как спам раз 20, наверно.

                      0
                      Плагин на браузер ставил чтоб вычистить из поисковой выдачи…
                        0
                        кару переехал на fooobar .com
                        Решение, чтобы зеркала доставляли чуть меньше дискомфорта
                        github.com/Taraflex/Back2stackoverflow
                        0
                        сайт, который паразитирует на имеющемся проекте

                        Между прочим, это не всегда плохо. Например, ruclip.ru (и не только он, их много) паразитирует на youtube, но при этом не тормозит и без рекламы.
                          0
                          Он режет ютубовскую рекламу, но при этом показывает свою.
                          0
                          Одной только википедии «зеркал» немеряно существует.
                          Ну как раз зеркала википедии, обычно, хотя бы нагрузку на оную снижают и правилам обычно соответствуют.

                          Да и вообще копии чего угодно можно только приветствовать: если основной сайт недоступен, можно с зеркала слить.

                          Бесят сайты-паразиты, которые показывают свою рекламу, зарабатыват денежку — а потом всё равно отправляют на базовый сайт…
                            0
                            Они не зеркала, а «зеркала» — сами ничего не хостят, просто подгружают страничку с википедии, пихая везде свою рекламу.
                          –3

                          Название статьи отредактируйте, пожалуйста. Слово «импортозамещение» вводит в заблуждение относительно контента.

                            0
                            Программный комплекс по доступу к архивным копиям сайтов в сети Интернет
                            направление запроса к архиву Интернет в отношении архивной копии страницы, адрес которой задается пользователем в интерфейсе программного комплекса; получение ответа от архива Интернет о количестве, дате и времени архивных копий страницы, адрес которой задан пользователем;
                            Вот хитрецы, по сути они все верно пишут, только умалчивают где эти архивные копии находятся.

                            Но в лицензионном соглашении указано:
                            Заголовок спойлера
                            Программный комплекс «Веб-архив.ру» предоставляет собой службу, зарегистрированную в Роспатенте за номером 2016616556, назначением которой является формирование, обработка и передача запросов на предоставление информации о внешнем виде и содержании страниц в сети Интернет по состоянию на определенную дату в прошлом (архивные копии интернет-страниц) в международную организацию The Internet Archive, а также визуальное отображение полученных от нее архивных копий интернет-страниц. Международная организация The Internet Archive, являясь публичной библиотекой интернет-сайтов и иных информационных ресурсов, осуществляет предоставление архивных копий сайтов в научных, исторических и культурных целях, вследствие чего вправе осуществлять такое предоставление без согласия автора или иного правообладателя и без выплаты вознаграждения (ст. 1275 ГК РФ)
                            «Веб-архив.ру» не управляет процессом создания и удаления архивных копий международной организацией The Internet Archive, не имеет возможности влиять на данные процессы, поэтому все запросы правообладателей относительно создания, изменения и удаления архивных копий страниц Пользователь вправе адресовать непосредственно в The Internet Archive:

                              0

                              С одной стороны — плагиатить и путать людей нехорошо, даже с патентом! С другой стороны, если у оригинального сайта вдруг возникнут проблемы — можно будет обратиться на его копию.

                                +5
                                Не-а. Почти наверняка, это не копия данных, а просто прокси. Если оригинальный сайт сдохнет, то и этот тоже.
                                  0
                                  Это именно прокси, у них в соглашении практически прямым текстом это указано.
                                  Остается вопрос: Как они смогли запатентовать прокси?
                                    0
                                    Это не патентование, это обычная регистрация ПО. Её можно практически на любое ПО получить. Надо только пошлину заслать и распечатку части кода. Другой вопрос — зачем они регистрировали? Обычно в госзаказах требование регистрации вписывается, но в данном случае не видно признаков того, что это госзаказ. Просто ради красивого шильдика?
                                    UPD: Заглянул на сайт Роспатента, там регистрация всего 4500 стоит, так что вполне могли только ради шильдика потратиться.
                                      +1
                                      Помнится в одной из статей про патенты упоминали случай, где в наше время запатентовать удалось обычную бутылку (завуалированными формулировками, типа «цилиндрическое приспособление, имеющее сечение...» и т.д.), после чего обладатели патента стали требовать по 0,5% от пивных производителей. Вероятно, здесь тоже исхитрились.
                                  0
                                  Кстати, web.archive.org одно время был забанен роскомнадзором, может появление этого сайта связано с этим.
                                    0
                                    Они обычно фильтруют запрещенные сайты.

                                    Но иногда что-то идет не так

                                      +1
                                      Но иногда что-то идет не так

                                      На самом деле всё так, гугл давно в реестре, но его нет в выгрузке. Как и Википедии. Просто вот так у нас исполняются законы ((
                                    +2
                                    Подозреваю, что российский аналог википедии будет выполнен по такому же принципу.
                                      0

                                      Импортозамещение по-русски. Напомнило технику с наклейками "своих" брендов.


                                      А по большому счету, кто то просто хочет срубить бабла с рекламы и сильно не заморачиваться.

                                        0
                                        Скорее всего, это не по заказу гос-ва сделано. Но да, именно из-за ассоциаций с переклейкой брендов я это и назвал «импортозамещением» в заголовке.
                                        Рекламы на сайте нет, так что всё не так просто. Видимо, зарабатывают они на нотариальной заверке копий, а сайт архива служит для поднятия собственной значимости в глазах заказчика. Расценки на услуги у них там, кстати, немалые.
                                          0

                                          Действительно, рекламы нет, думал порезало. По симилару посещаемость не сильно большая, но можно было уже ставить.


                                          Но делать такое, чтобы заверения продавать… Это же то же самое, что сделать порнхаб чтоб там даже не виагру, а пиццу толкать.


                                          Ну да, люди заказывают пиццу. Да, люди пользуются услугами нотариусов. Но эффективность такого решения даже с учетом возможной шумихи в СМИ..?


                                          Ну, разве что ставка на последнее. А так по воробьям из пушки.

                                            0
                                            Почему «из пушки»? Они же не полноценный архив сделали, а просто прокси. Это за 1-2 недели можно сделать, не спеша.
                                              0

                                              Из пушки потому, что для получения одного клиента с нецелевого трафика нужно десятки тысяч посетителей как минимум (а то и сотни тысяч, с такой тематикой). И это лишь клиент, сам заказ еще выполнить надо.


                                              В то же время повесил рекламу, "забыл", и получаешь в разы больше с той же аудитории.

                                        0
                                        Можно собрать на основе одних только конфигов
                                        nginx.org/ru/docs/http/ngx_http_addition_module.html
                                        nginx.org/ru/docs/http/ngx_http_sub_module.html
                                          0
                                          >«архив интернет»

                                          Уже за это словосочетание создателей / владельцев сайта можно вешать решительно порицать.

                                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                          Самое читаемое