Как стать автором
Обновить

Парсинг kad.arbitr и поиск клиентов

Время на прочтение2 мин
Количество просмотров11K

Идея родилась несколько лет назад и была до банальности проста: kad.arbitr.ru - сайт, где "живут" гражданские и иные дела - просто бездонный кладезь ценной информации для юридической фирмы. В материалах дел есть данные компаний, которым предъявили иск и они, возможно, еще не знают об этом, не готовы, не могут или не хотят сами ходить в суды. Осталось только найти эти фирмы и достучаться до них.

Сказано - сделано. Вооружившись python и базовыми знаниями его синтаксиса, выясним, что из этого получится.


В начале.

Зайдя на сайт kad.arbit.ru с помощью selenium, перейдя в календарь судебных заседаний, указав суд и выбрав месяц на календаре - сайт отдает назначенные заседания:

И вот тут начинаются первые проблемы. Если заседаний было слишком много. А по мнению, kad.arbitr - это больше 1000, то сайт выдает следующее:

Хм. Зачем тогда вообще нужна эта информация, если ее нельзя посмотреть ?

Однако, данные дни можно можно пропустить, переходя в доступные. Открывается примерно следующая картина:

Осталось все это собрать в какой-нибудь пакетик csv, например.Помещая туда № дела, компанию-ответчика и ссылку на дело. Получится примерно следующее - посмотреть.

При сборе по спискам дел за месяц, урожай получается богатым.

Что дальше?

А далее предстоит повыкидывать из списка "неформат", а именно:

  • ФГУПЫ, МУПы и прочие - у них, как правило есть штатные юристы либо они вообще не ходят на заседания;

  • банки, страховые, ПАО - там точно помощь не нужна, если это только не мелкий процесс, на который им лень идти;

  • физ. лиц, как ни странно. У них просто нет адресов, куда направлять письма (не у всех, но как правило). ИП тоже под вопросом.

  • ТСЖ, ТСН - по желанию, так как они, как правило, судятся сами либо с ними все сложно в плане взаимодействия.

    В сухом остатке - ООО и АО, но и их, все равно, остается достаточно. На выходе получалось примерно так - посмотреть.

    *Несмотря на то, что в делах бывает несколько ответчиков и не бывает вовсе (например, в делах по установлению юр. фактов) python помещает в csv и их.

    По сути это и есть клиенты - можно смело открывать ссылки на дела, искать адрес и писать свои коммерческие предложения.

Искать адрес потенциального клиента.

Может оказаться не просто. От Pyhton требуется ходить по сохраненным ссылкам дел, сохранять адреса. Но адреса либо неполные, либо кривые, либо скрыты, либо их нет вовсе (хотя должны быть).

Но Python хорош своей гибкостью и, применив немного упорства, на выходе получится - так.

Что дальше ? Писать письма ! Но вручную клепать почтовые конверты, даже если есть комбинации CTRL+C, CTRL+V и сайт по заполнению конвертов...

Сайт по заполнению конвертов.

Пришелся как нельзя кстати. Не для рекламы ради, но этот сайт действительно сильно поможет в тиражировании конвертов. Заполняет конверты, конечно, python, прямо на сайте konvert-online.ru

Готовый конверт для примера - посмотреть.

Печальные вести.

Недавно выяснилось, что kad.arbitr.ru окончательно уничтожил возможность по сбору информации c помощью selenium или, вполне может быть, это просто показалось.

Код реализовавший все вышеизложенное и инструкция его применения здесь - скачать.

Теги:
Хабы:
Всего голосов 3: ↑3 и ↓0+3
Комментарии2

Публикации

Истории

Работа

Python разработчик
108 вакансий
Data Scientist
69 вакансий

Ближайшие события