Интернет-сервис для отслеживания изменений на сайтах

    Хабрахабр, привет!

    Возникала ли у вас когда-нибудь потребность отслеживать появление какой-нибудь информации на сайте, особенно если там нет рассылки новостей и RSS-канала!? Приходилось ли ожидать, когда опубликуют результаты экзамена, новые вакансии, тендеры, обновят прайс.

    В нашей компании, занимающейся большую часть времени пенсионно-страховым консалтингом, такая потребность возникает постоянно. При этом тратить время на регулярное посещение сайтов грустно, а найти подходящий инструмент, которому можно было бы поручить такого рода задачу не получалось: либо надо было устанавливать отдельную программу, либо не устраивало отображение результата. Поэтому было решено создать сервис, который бы позволял отслеживать все изменения на сайтах. И не просто отслеживать и получать уведомления об изменениях, но и видеть сами изменения прямо на сайте.

    Результатом разработки стал сервис Websvodka.ru, о котором здесь кратко расскажу. Возможно, вам он тоже сможет пригодиться.

    image

    Основные функции Websvodka.ru:
    — Отслеживание и отображение изменений на веб-страницах.
    — Контроль добавления и удаления страниц сайтов (отслеживаются гиперссылки на существующих страницах).
    — Оповещение об изменениях результатов по поисковым запросам.
    — Отслеживание размеров размещенных в интернете файлов.

    1. Изменения на странице
    После постановки страницы на контроль можно видеть все происходящие с ней изменения. На скриншоте ниже добавленная фраза выделена зелёным, а удалённая – красным. Контролируемая страница rbc.ru:

    image

    Изменения на habrahabr.ru/posts/software/:

    image

    Кроме того, сервису можно поручить отслеживать случаи появления или исчезновения на странице отдельных слов и словосочетаний.

    2. Наблюдение за сайтом
    А так выглядит отчет о добавлении и удалении страниц на сайте ixbt.com:

    image

    Заинтересовавшие страницы можно открыть в новой вкладке, кликнув изображение глаза, или добавить в список контролируемых, нажав на флажок. Они автоматически появятся в соответствующем разделе.

    3. Поисковые запросы
    Нажимается кнопка «Добавить», вводится интересующий запрос, и сервис будет показывать выбывшие и новые результаты поиска, а также изменения их позиций в выдаче.

    image

    4. Размеры файлов
    Добавлять файлы для мониторинга и получать результаты отслеживания можно точно так же, как и для остальных типов контента. Задается ссылка на файл, и сервис будет информировать об изменениях его размера, даты изменений фиксируются.

    Рассмотренные четыре возможности по отслеживанию изменений контента сайтов отражают основной имеющийся функционал сервиса Websvodka.ru. Для повышения надежности и скорости работы модули загрузки контента, анализа страниц и хранения результатов функционируют параллельно и размещены на разных серверах. Работа над расширением возможностей продолжается.

    Будем рады, если сервис поможет в решении ваших задач!

    P.S. Как это работает:
    После регистрации на Websvodka.ru и входа в систему (для простого ознакомления с функционалом можно и не регистрироваться, а выбрать режим «Демоверсия», но тогда ваши действия на сайте не будут сохраняться), переходим в раздел «Рабочий стол», выбираем нужную категорию, нажимаем кнопку «Добавить» и вводим адрес того, за чем надо понаблюдать. Далее Websvodka.ru регулярно проверяет интересующий объект и уведомляет вас о его изменениях (можно настроить уведомления по e-mail). Использование основного функционала бесплатно. Сами изменения можно увидеть, войдя в нужную категорию раздела «Рабочий стол».
    Иэмбиси 16,27
    Компания
    Поделиться публикацией
    Ой, у вас баннер убежал!

    Ну. И что?
    Реклама
    Комментарии 27
      0
      Из похожих сервисов: toster.ru/q/4073
      Я, помнится, использовал feed43.com
      +6
      На главной странице нет ссылки на прайс?
      -> /dev/null
        0
        Кстати, да, на первый же возникающий вопрос — сколько чего будет стоить — на сайте нет ответа. Гадать предполагается?
          0
          Да, прайса на видном месте нет, поскольку некоммерческое использование (контроль до трех объектов каждого типа — страницы, сайты, поисковые запросы, файлы, всё это с проверкой изменений раз в сутки) бесплатно. Если потребуется, то есть платный (240 руб. / 3 мес.) набор дополнительных возможностей: это большее число контролируемых объектов и проверка изменений, если потребуется, раз в час (подробности: websvodka.ru/information/).
            +2
            Интересно, как вы будете догонять каждого покинувшего сайт и объяснять ему это.
              0
              Спасибо! Подумаем над тем, как лучше разместить инфу.
        +11
        Интересно, это только мне это упорно читается, как websVodka?
        Да и иэмбиси тоже что-то напоминает…
          0
          похоже, я уже не забуду это название…
          0
          import.io лучшее из последнего, что я видел для веб скрейпинга. Он позволяет делать пресеты для сайтов через апликуху и ранить парсинг таски в их клауде и локально. Думаю находить дифы можно, просто сравнивая результаты, при этом сам сервис предоставляет уйму вкусных фич
            +4
            Не обижайтесь, но выглядит примерно так:
            лучшее из последнего бла-бла-бла. Он позволяет бла-бла-бла бла-бла-бла бла-бла-бла. Думаю бла-бла-бла бла-бла-бла бла-бла-бла.
            +1
            Пользуюсь дополнением к Firefox'у — Update Scaner. Удобная штука.
              0
              Для Хрома Page Monitor
                0
                Еще был AlertBox, сейчас переименовалось во что-то, и онлайн там тоже есть.
                +1
                Дошел до формы регистрации и закрыл, полей много, нет входа от соц. сетей, внезапно про льготный период выясняется, а что после не очень понятно.
                  0
                  ВКонтакте поддерживается (планируется)?
                    0
                    Проверка изменений на ВКонтакте, также как и на других сайтах, поддерживается, но только того контента, к которому возможен неавторизованный доступ.
                      0
                      Печально, останемся пока на Update Scanner
                        0
                        Я немного не в курсе, если к примеру я отдам логин/пароль и доступ станет авторизованным — технических проблем с реализацией не будет? Вдруг у них там все джаваскриптом генерируется?
                          0
                          Да, в случае если контент зависит от параметров авторизации, контролировать такую страницу не получится. Технически проблема решаемая, но пока принцип работы сервиса: не запрашивать и не хранить конфиденциальную информацию пользователей, в том числе логины и пароли к другим сайтам.
                      +1
                      Можно натравить сервис на страницы тарифных планов некоторых провайдеров.
                        +1
                        Точно. А лучше на условия кредитования в банке!
                        0
                        А как это работает, запросы регулярно отправляются на интересующий клиента сайт? Этот сайт не забанит вас в итоге?
                          0
                          Да, работает именно так. Бан не исключен, но в большинстве случаев этого не происходит.
                          0
                          Хорошо.

                          Как насчёт поддержки proxy, cookies и данных веб-форм?

                          Вот простой пример, сайт госзакупок: portal.goszakup.gov.kz/portal/index.php/ru/oebs/buys
                          Если просто скачать эту страницу — то ничего не полезного не получим.
                          Нужно передавать пустой запрос аналогичный тому, что отправляет форма слева.
                          Отправили — получили результат в виде множества страниц. Разобрали информацию с главной страницы — пытаемся получить информацию со второй — оппа, страница опять пуста. Что за фигня? Оказывается — теперь нужно записать кое-чего в кукисы, тогда сайт будет понимать что мы пытаемся двигаться по страницам.
                          Ок, записали кукисы, пытаемся получить информацию с 3/4/5 страниц — всё норм.
                          6-я страница — просит ввести капчу (да б%%!!!).
                          Чешем репу, набираем много-много прокси, тычемся с кукисами и данными формы на страницу 6 — прокси не пашет, пробуем ещё десяток — на 11 получаем наконец страницу, все счастливы.

                          Ни один из сервисов насколько я знаю не в состоянии решить данный юзкейс. Как с этим у Вас?
                            0
                            Исследовали тему. Считаем, что решаемо и интересно. Подумаем над практической реализацией. Спасибо!

                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                          Самое читаемое