Может вам поможет. Вот коллеги делали рекурсивный алгоритм, который делает из отчётоподобных документов таблички в pandas и тексты https://github.com/CAG-ru/report_parser
В этом смысле Росстат и правда молодец. Но в других наших проектах, например, в попытках проанализировать regulation.gov.ru, все те же проблемы с docx, расшифровкой pdf и тп.
Нет, доступ открыт для всех. Скачать можно здесь. Но пока доступно только в формате csv и бета-версия. Через месяцок положим финальную версию, плюс добавим формат БД.
Высокая социальная значимость этих данных
Конвертеры есть и они будут работать, если структура входящих данных не будет меняться.
Может вам поможет. Вот коллеги делали рекурсивный алгоритм, который делает из отчётоподобных документов таблички в pandas и тексты https://github.com/CAG-ru/report_parser
В этом смысле Росстат и правда молодец. Но в других наших проектах, например, в попытках проанализировать regulation.gov.ru, все те же проблемы с docx, расшифровкой pdf и тп.
Нет, доступ открыт для всех. Скачать можно здесь. Но пока доступно только в формате csv и бета-версия. Через месяцок положим финальную версию, плюс добавим формат БД.