Так в тексте программы уже этот цикл есть )
Небольшая задержка, к сожалению, не всегда спасает. Ранее писал под старый сервис, там задержку надо было ставить до 15 мин.
отлично! большой труд.
вставлю свои 5 копеек:
— сравните теперь длину кода;
— requests, которые здесь использованы, к сожалению отваливаются из-за капч в дальнейшем;
— только один ИНН?
Спасибо про «Велосипед...», я читал статью ранее. Она про извлечение данных из pdf. Здесь мы склеиваем pdfы и ищем по ним. Все просто. Не всегда надо собирать велосипед, чтобы поехать.
Про использование памяти я вас не совсем понимаю. Если программу заряжать по всем выпискам из ЕГРЮЛ, возможно она и подвесит комп. Но я обрабатываю порядка 300-400 выписок, все выполняется за секунды.
p.s. про законы действительно обидно прозвучало. напишите свой первый иск, а я потренируюсь в иронии.
Вот именно, и «еще откуда-нибудь». Все существующие системы Спарк, Правобот и т.п. предоставляют какую-то информацию. Эта информация не особо-то и нужна, иногда не релевантна, а иногда вообще вводит в заблуждение. Кроме того, разрабатывать мелкие сервисы такие программные монстры не будут. Здесь и рождается ниша для IT-юристов.
у меня есть реализация такого плана. все выписки перегоняются из pdf в csv сторонней программой, потом они сравниваются построчно с самими собой месячной давности (либо более ранними). такая типа ретроспектива изменений в егрюл. но вряд ли это интересно.
да, у меня есть такая реализация. без pandas, все проще. но ручник нужен для ситуации, если полезли капчи либо отошел, либо интернет отвалился. напишу как-нибудь попозже пост как кидаться запросами, в том числе игнорируя капчи.
мне стыдно это признать, но дальше я ищу в общем файле pdf через CTRL+F. перегон с помощью Python из pdf в csv ничего толком не дает, т.к. даже если слово «недост» есть, нельзя понять к какому обществу это относится (понять можно на самом деле, но адреса полей в csv разные каждый раз). Кроме того, «недост» присутствуют в выписках после исправлений сведений о недостоверности в налоговой (так называемая история исправлений), что так же путает.
спасибо за комменты. первый пост, он такой ) тем более, что я юрист, а не программер. порой проще написать «лазерную пушку по воробьям» самому, чем идти в ИТ и объяснять, что это и зачем надо.
Только шагов меньше.
Небольшая задержка, к сожалению, не всегда спасает. Ранее писал под старый сервис, там задержку надо было ставить до 15 мин.
вставлю свои 5 копеек:
— сравните теперь длину кода;
— requests, которые здесь использованы, к сожалению отваливаются из-за капч в дальнейшем;
— только один ИНН?
Про использование памяти я вас не совсем понимаю. Если программу заряжать по всем выпискам из ЕГРЮЛ, возможно она и подвесит комп. Но я обрабатываю порядка 300-400 выписок, все выполняется за секунды.
p.s. про законы действительно обидно прозвучало. напишите свой первый иск, а я потренируюсь в иронии.
на счет plain не уверен, но вот, можете проверить — пример выписки.