mullltifrukt29 апр в 05:21

Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)

Простой

5 мин

10K

WebAssembly * Информационная безопасность * Data Mining * БраузерыВеб-аналитика *

Кейс

Из песочницы

Комментарии 10

lazarus_net 29 апр в 06:35

Возможны три варианта:

Сайт отдает сырой HTML
Есть JSON API без серьезной защиты
Есть JSON API с антибот-защитой (наиболее вероятный вариант)

Объясните, темным, зачем официальному государственному сайту, который должен предоставлять информацию гражданам антибот защита?

Проще было бы хранить все в виде Git репозитария в простом текстовом формате - возьмите маркдаун для базовой разметки.

Больше не трубется.

Одно дело - один файл.

Тупо дополняем записями при появлении новой информации.

Максимум меняем статус.

Все кому надо - могу скачать все репо спокойно и не напрягать сервер. Надо обновления - смотри историю коммитов.

Но на этом бюджет в 100500 миллионов не сделаешь.

sunnybear 29 апр в 06:53

Чтобы миллион юристов, которые работают через сайт, могли кушать

lazarus_net 29 апр в 08:03

Так юристы и так кушать будут. Им же не за копание на сайте деньги платят? Правда ведь???

sunnybear 6 мая в 09:32

если на сайте не нужно будет копаться, то базовая необходимость в юристах отпадет. Так что нет, не правда

aborouhin 29 апр в 10:24

Объясните, темным, зачем официальному государственному сайту, который должен предоставлять информацию гражданам антибот защита?

Чтобы компания ПравоТех, которая поддерживает данный сайт, могла успешно монетизировать свои коммерческие продукты, основным конкурентным преимуществом которых является как раз неограниченный доступ к базе данных КАД. А другим компаниям создать свои конкурирующие продукты было бы максимально сложно. Как так получилось и почему ничего не меняется — это очень долгая и интересная история...

mullltifrukt 30 апр в 17:13

Про .md файл интересная затея, однако, вряд-ли всем обывателям будет удобен данный формат, не все знакомы даже с платформами github\gitlub.
Почему федеральный сайт продает API - а не предоставляет всем информацию на всеобщее обозрение? Ну если у вас запрашиваемая информация не исчисляется числами больше 10-30, это можно спокойно производить любому человеку - просто вбивать в самом браузере вручную, даже времени относительно много не уйдет. Когда же касается вопрос большого количества обращений - все меняется. В первую очередь открытые API в таких ресурсах будут страдать от большого количества обращений. И к этой информации могут подступиться нехорошие люди, которые будут собирать данные и перепродавать их (поскольку персональные данные там тоже имеются). Поэтому ограничение пользователей путем платы на за API - вполне разумный выбор. С одной стороны ограничение пользователей API, с другой стороны денежные отношения с тем кому и вправду такая информация необходима.

aborouhin 29 апр в 10:26

Уважаемый автор, это очень интересная, и более того, лично мне полезная тема. Но не покидает двойственное ощущение. С одной стороны, делиться такими знаниями - хорошо и благородно. С другой стороны, Вы же понимаете, что ровно после того, как Вы это опубликовали здесь, механизм защиты от парсинга будет оперативно обновлён так, чтобы ваши рецепты перестали работать... И у кого-то это сломает его работающий парсер.

Mr_Cheater 30 апр в 10:29

Гос.структура? Оперативно? Не в этой вселенной.

И потом - все, что видит браузер, можно спарсить так или иначе. Вопрос в том, насколько это нужно.

aborouhin 30 апр в 10:58

В том-то и дело, что там не государственная структура, а вполне себе частная со своими коммерческими интересами. Тот же Webassembly у них появился неспроста. Раньше был торчащий наружу внутренний API с понятными ответами в JSON. А еще раньше был API для мобильного приложения (ныне несуществующего). И все это весьма оперативно прикрывалось, как только конкурирующие продукты (и даже неофициальные парсеры, за которые брали деньги как за отдельный продукт) начинали использовать данные варианты.

В итоге сейчас даже живой человек, активно открывающий разные карточки дел и документы, регулярно попадает там в бан.

Понятно, что все можно спарсить, - но вопрос цены и времени. Одно дело, если задача - регулярный мониторинг ограниченного количества отдельных дел. А совсем другое, если задача получить большое количество текстов, например, для обучения моделей ИИ.

mullltifrukt 30 апр в 17:00

Да, вы конечно правы, когда тайное становится явным приходится придумывать что-то новое. Эта борьба вечная. В идеале, я бы конечно хотел просто показать как работает система защиты и на чем она базируется - не указывая напрямую способы обхода.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий