Как стать автором
Обновить

Комментарии 14

Welcome to the real world

In normal world you set up a database.

In Soviet Russia the database upsets you.

Эх, если бы Вы знали как заполняются эти данные :)))

Пхахаххаа ))) Счастливчики, в РФ есть БД у Статистики. В Казахстане, чтоб собрать даже самый мало-мальский простенький показатель (то же население, с разбивкой по месяцам и по административным единицам), необходимо выкачать штук ЦЦать файлов, причем какието будут XLS, какие-то DOC, третьи вообще какого-то другого формата. И потом все это сводить в одну какую-то портянку.

Какие нормальные БД и сервисы? вы о чем? ))))

В этом смысле Росстат и правда молодец. Но в других наших проектах, например, в попытках проанализировать regulation.gov.ru, все те же проблемы с docx, расшифровкой pdf и тп.

Может вам поможет. Вот коллеги делали рекурсивный алгоритм, который делает из отчётоподобных документов таблички в pandas и тексты https://github.com/CAG-ru/report_parser

А где можно скачать или как воспользоваться очищенной БД ?

Или вы все это делали исключительно для своих нужд?

Нет, доступ открыт для всех. Скачать можно здесь. Но пока доступно только в формате csv и бета-версия. Через месяцок положим финальную версию, плюс добавим формат БД.

Зачем было так себя мучать?

Высокая социальная значимость этих данных

А чтобы собрать данные за новые периоды, придется всю эту работу проделывать вновь или вы разработали 85 конвертеров в общий формат?

Конвертеры есть и они будут работать, если структура входящих данных не будет меняться.

Надо вас на Росаккредитацию натравить, у них там такой зоопарк с декларациями соответствия. Плюс, если рассматривать вашу историю, вам бы выдали более полный дамп, чем куцые "наборы данных".

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории