Как стать автором
Обновить

Комментарии 27

Тоже раньше искал похожий сервис и наткнулся на этот вопрос на тостере, пользуюсь иногда urlooker.com оттуда.
На главной странице нет ссылки на прайс?
-> /dev/null
Кстати, да, на первый же возникающий вопрос — сколько чего будет стоить — на сайте нет ответа. Гадать предполагается?
Да, прайса на видном месте нет, поскольку некоммерческое использование (контроль до трех объектов каждого типа — страницы, сайты, поисковые запросы, файлы, всё это с проверкой изменений раз в сутки) бесплатно. Если потребуется, то есть платный (240 руб. / 3 мес.) набор дополнительных возможностей: это большее число контролируемых объектов и проверка изменений, если потребуется, раз в час (подробности: websvodka.ru/information/).
Интересно, как вы будете догонять каждого покинувшего сайт и объяснять ему это.
Спасибо! Подумаем над тем, как лучше разместить инфу.
похоже, я уже не забуду это название…
import.io лучшее из последнего, что я видел для веб скрейпинга. Он позволяет делать пресеты для сайтов через апликуху и ранить парсинг таски в их клауде и локально. Думаю находить дифы можно, просто сравнивая результаты, при этом сам сервис предоставляет уйму вкусных фич
Не обижайтесь, но выглядит примерно так:
лучшее из последнего бла-бла-бла. Он позволяет бла-бла-бла бла-бла-бла бла-бла-бла. Думаю бла-бла-бла бла-бла-бла бла-бла-бла.
Для Хрома Page Monitor
Еще был AlertBox, сейчас переименовалось во что-то, и онлайн там тоже есть.
Дошел до формы регистрации и закрыл, полей много, нет входа от соц. сетей, внезапно про льготный период выясняется, а что после не очень понятно.
ВКонтакте поддерживается (планируется)?
Проверка изменений на ВКонтакте, также как и на других сайтах, поддерживается, но только того контента, к которому возможен неавторизованный доступ.
Печально, останемся пока на Update Scanner
Я немного не в курсе, если к примеру я отдам логин/пароль и доступ станет авторизованным — технических проблем с реализацией не будет? Вдруг у них там все джаваскриптом генерируется?
Да, в случае если контент зависит от параметров авторизации, контролировать такую страницу не получится. Технически проблема решаемая, но пока принцип работы сервиса: не запрашивать и не хранить конфиденциальную информацию пользователей, в том числе логины и пароли к другим сайтам.
Можно натравить сервис на страницы тарифных планов некоторых провайдеров.
Точно. А лучше на условия кредитования в банке!
А как это работает, запросы регулярно отправляются на интересующий клиента сайт? Этот сайт не забанит вас в итоге?
Да, работает именно так. Бан не исключен, но в большинстве случаев этого не происходит.
Хорошо.

Как насчёт поддержки proxy, cookies и данных веб-форм?

Вот простой пример, сайт госзакупок: portal.goszakup.gov.kz/portal/index.php/ru/oebs/buys
Если просто скачать эту страницу — то ничего не полезного не получим.
Нужно передавать пустой запрос аналогичный тому, что отправляет форма слева.
Отправили — получили результат в виде множества страниц. Разобрали информацию с главной страницы — пытаемся получить информацию со второй — оппа, страница опять пуста. Что за фигня? Оказывается — теперь нужно записать кое-чего в кукисы, тогда сайт будет понимать что мы пытаемся двигаться по страницам.
Ок, записали кукисы, пытаемся получить информацию с 3/4/5 страниц — всё норм.
6-я страница — просит ввести капчу (да б%%!!!).
Чешем репу, набираем много-много прокси, тычемся с кукисами и данными формы на страницу 6 — прокси не пашет, пробуем ещё десяток — на 11 получаем наконец страницу, все счастливы.

Ни один из сервисов насколько я знаю не в состоянии решить данный юзкейс. Как с этим у Вас?
Исследовали тему. Считаем, что решаемо и интересно. Подумаем над практической реализацией. Спасибо!
Зарегистрируйтесь на Хабре, чтобы оставить комментарий