Изображение: Pexels
Для сайтов-агрегаторов в сфере электронной коммерции крайне важно поддерживать актуальную информацию. В противном случае исчезает главное их преимущество – возможность видеть самые релевантные данные в одном месте.
Для того, чтобы решить эту задачу необходимо использовать технику веб-скрейпинга. Ее смысл в том, что создается специальный софт – краулер, который обходит нужные сайты из списка, парсит информацию с них и загружает ее на сайт-агрегатор.
Проблема в том, что зачастую владельцы сайтов, с которых берут данные агрегаторы, вовсе не хотят так легко предоставлять им доступ. Это можно понять – если информация о цене в интернет-магазине попадет на сайт агрегатор и окажется выше, чем у конкурентов, представленных там же – бизнес потеряет покупателей.
Методы противодействия скрейпингу
Поэтому часто владельцы таких сайтов противодействуют скрейпингу – то есть скачиванию своих данных. Они могут выявлять запросы, которые отправляют боты-краулеры по IP-адресу. Обычно такой софт использует так называемые серверные IP, которые легко вычислить и заблокировать.
Кроме того, вместо блокировки запросов часто используется и другой метод – выявленным ботам показывают нерелевантную информацию. Например, завышают или занижают цены на товары или изменяют их описания.
Пример, который часто приводят в этой связи – цены на авиабилеты. Действительно, довольно часто авиакомпании и турагентства могут показывать разные результаты для одних и тех же перелетов в зависимости от IP-адреса. Реальный случай: поиск авиаперелета из Майами в Лондон на одну и ту же дату с IP-адреса в Восточной Европе и Азии возвращает разные результаты.
В случае IP-адреса в Восточной Европе цена выглядит так:
А для IP-адреса из Азии так:
Как видно, цена на один и тот же перелет значительно отличается – разница составляет $76, что действительно много. Для сайта-агрегатора нет ничего хуже этого – если на нем будет представлена неверная информация, то пользователи не будут им пользоваться. Кроме того, если на агрегаторе у конкретного товара одна цена, а при переходе на сайт продавца она меняется – это также негативно влияет на репутацию проекта.
Решение: использование резидентных прокси
Избежать проблем при скрейпинге данных для нужд их агрегации можно с помощью использования резидентных прокси. Cерверные IP предоставляются хостинг-провайдерами. Выявить принадлежность адреса к пулу конкретного провайдера довольно просто – у каждого IP есть ASN-номер, в котором содержится эта информация.
Есть множество сервисов для анализа ASN-номеров. Часто они интегрируются с антибот-системами, которые блокируют доступ краулерам или подтасовывают отдаваемые в ответ на их запросы данные.
Обойти такие системы помогают резидентные IP-адреса. Такие IP интернет-провайдеры выдают владельцам жилья, с соответствующими пометками во всех связанных базах данных. Существуют специальные сервисы резидентных прокси, которвые позволяют пользоваться резидентными адресами. Infatica – как раз такой сервис.
Запросы, которые краулеры сайтов-агрегаторов отправляют с резидентных IP, выглядят так, будто бы они идут от обычных пользователей из определенного региона. А обычных посетителей никто не блокирует – в случае интернет-магазинов это потенциальные клиенты.
В итоге использование ротируемых прокси от Infatica позволяет сайтам-агрегаторам получать гарантированно точные данные и избегать блокировок и трудностей с парсингом.