Комментарии 8
Рекомендую обратить ваше внимание на универсальные скриптовые языки, например, на Питон.
На нем относительно низкий порог вхождения, а потобные задачи решаются в 10-15 строк, причем куда более гибко, чем в каких-то малопопулярных специфических тулзах.
На нем относительно низкий порог вхождения, а потобные задачи решаются в 10-15 строк, причем куда более гибко, чем в каких-то малопопулярных специфических тулзах.
Спасибо за пост, сам планирую NiFi ровно для этой задачи задействовать :)
А вопрос немножно не по теме. На первом скриншоте у Вас видно, что каталоги на сервере начинаются с 2018 года. Раньше же, вроде, с 2015 было? Мне сильно интересна именно история изменений ЕГРЮЛ — не хотелось бы заплатить 150 т.₽, чтобы выяснить, что её там теперь гораздо меньше.
А вопрос немножно не по теме. На первом скриншоте у Вас видно, что каталоги на сервере начинаются с 2018 года. Раньше же, вроде, с 2015 было? Мне сильно интересна именно история изменений ЕГРЮЛ — не хотелось бы заплатить 150 т.₽, чтобы выяснить, что её там теперь гораздо меньше.
я в 2019 сделал скрипты для этого на python.
1 — обход папок на веб странице, проверка что уже скачано локально и закачивание новых, запуск раз в сутки (появляются вечером)
2 — обход архивов. В БД есть таблице в которой храниться что было спарсено, чтобы понимать какие архивы надо парсить еще. Дальше распаковка, преорбазование в json и запись в БД каждой отдельной выписки. Некоторые поля отдельно сразу выносил — ИНН, дату архива, дату выписки, чтобы быстро потом находить все выписки по данному ИНН
Так же для ЕГРИП.
Если кому-то надо можете ввести ИНН или имя компании в бота @FNS_SEARCH_Bot и получить инфу оттуда, включая официальную выписку с печатью от ФНС.
1 — обход папок на веб странице, проверка что уже скачано локально и закачивание новых, запуск раз в сутки (появляются вечером)
2 — обход архивов. В БД есть таблице в которой храниться что было спарсено, чтобы понимать какие архивы надо парсить еще. Дальше распаковка, преорбазование в json и запись в БД каждой отдельной выписки. Некоторые поля отдельно сразу выносил — ИНН, дату архива, дату выписки, чтобы быстро потом находить все выписки по данному ИНН
Так же для ЕГРИП.
Если кому-то надо можете ввести ИНН или имя компании в бота @FNS_SEARCH_Bot и получить инфу оттуда, включая официальную выписку с печатью от ФНС.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Импорт ЕГРЮЛ ФНС средствами Apache NiFi. Шаг 1 — загрузка файлов по HTTPS