Pull to refresh

Международный стандарт обмена данными SDMX (Statistical Data and Metadata eXchange)

Reading time7 min
Views13K


В русскоязычном интернете весьма мало информации о SDMX, несмотря на то, что этот стандарт давно используется для публикации и обмена данными многими странами и международными организациями. Инициатива разработки стандарта была запущена семью международными организациями, работающими со статистическими данными, которые стали спонсорами разработки. Основной целью было упрощение обмена статистическими данными между такими организациями, создание стандарта такого обмена и описание бизнес-процесса по внедрению данного стандарта. Единый подход не только позволяет упростить доступ к статистическим данным, но и с помощью метаданных (данные о данных) делает более доступным понимание их смысла и содержания.


Основным сайтом инициативы SDMX выступает сайт sdmx.org, там же содержится перечень утвержденных междоменных концептов, справочников и классификаторов. Каждая организация, присоединяющаяся к стандарту, может его расширить и дополнить, используя специальную административную процедуру регистрации.


Стандарт не является жестким руководством к действию, организации сами выбирают, какие элементы SDMX они будут использовать и для каких целей.


Немного истории
Первая версия стандарта позволяла обмениваться статистическими данными и метаданными в форматах GESMES/TS (собственный SDMX формат, чем-то напоминающий CSV с разделителем, позже был переименован в SDMX-EDI) и XML формат данных SDML-ML.
Версия 1.0 была одобрена в сентябре 2004 года и принята как техническая спецификация ISO (ISO/TS 17369:2005) в апреле 2005 года.
В ноябре 2005 года была готова и одобрена версия 2.0, которая полностью совместима с версией 1.0, но добавила возможность обмена ссылочными(описательными) метаданными.
Версия 2.1 (текущая на 2018 год) была выпущена в мае 2011 года и в 2013 году была издана как международный стандарт ISO 17369.
Позднее были описаны стандарты обмена в форматах CSV и JSON.


Описание стандарта SDMX содержит следующие компоненты:

  • Информационная модель (Information Model)
  • XSD-схемы описания структуры, модели содержания и типов данных
  • Руководящие принципы по информационному наполнению (Content-oriented Guidelines)
  • Набор программ и инструментов для работы с SDMX

Информационная модель SDMX — основа стандарта. Она представлена концептами (CONCEPT), ограничениями (CONSTRAIN), правилами, операциями для определения формата и состава статистических данных, раскрываемых организацией. В рамках данной статьи не планируется полностью описать все SDMX-сущности, только основные компоненты.


Информационная модель SDMX


Чем статистические данные отличаются от обычных данных? Да в общем-то ничем.


Статистические данные — совокупность упорядоченных, классифицированных данных о некотором массовом явлении или процессе. Характеризуются набором измерений (концептов, в терминах SDMX), в качестве одного из которых обычно выступает временной период. Для обработки и анализа таких данных обычно используют BI инструменты.


Статистическое наблюдение – это набор конкретных значений концептов, однозначно характеризующих каждую единицу совокупности массива данных.



Число «208,36» представляет собой статистическое наблюдение, определяемое набором концептов (все данные вымышленные)


В SDMX концепт является базовым объектом структуры и представляет собой качественную характеристику статистических наблюдений. Значениями концепта может быть число, строка, дата или значения из справочников кодов (CODELIST). Это представление может быть переопределено в структуре данных (Data Structure Definition), когда концепт будет использован как измерение или атрибут.


Справочники кодов представляют собой простой список «ключ-значение». В списке перечисляются множество значений, которые будут использоваться в представлении: показатели, атрибуты и другие элементы структурной части SDMX. Они дополняются другими структурными метаданными, которые могут отражать специфичное для разных языков описание и иерархическую организацию кодов.


Принцип кодирования структурных объектов SDMX определен в стандарте: допустимы латинские символы в верхнем регистре, цифры и знак подчеркивания. Кроме того, поддерживается версионность структур.


Описание структуры данных Data Structure Definition (DSD) определяет соответствующий состав и порядок концептов для формирования конечного набора данных (DATASET). Каждому концепту, входящему в структуру, дается определение его роли в наборе данных:


  • Измерение (DIMENSION) – основной идентификатор данных. Набор значений всех измерений, кроме временного, формирует уникальный код (CODE) серии в рамках одной структуры данных.
  • Атрибут (ATTRIBUTE) — предоставляет дополнительное описание либо для набора данных, либо для конкретного наблюдения. Примером атрибута может быть единица измерения или статус наблюдения (предварительное, прогнозируемое, пересмотренное и т.д.).
  • Непосредственно значение (MEASURE) наблюдения.

Таким образом, пример выше можно описать следующей структурой данных:

Концепт Роль Тип данных
Периодичность Измерение Справочник
Страна Измерение Справочник
Функциональная категория Измерение Справочник
Период Измерение времени Дата
Единица измерения Атрибут Справочник
Значение Значение Число


Набор данных (DATASET) — это коллекция однородных данных, имеющих общую структуру DSD. Может содержать временные серии (time series) или же нескольких серий в определенный момент времени (перекрёстные данные – Cross-Sectional Data).



Связь CONCEPTS, CODELISTS, DSD и DATASET

Пример набора данных с сайта Европейского центрального банка. В поле «Key» указан набор измерений для каждой временной серии, разделенные точкой они образуют уникальный ключ



Данные временной серии


Метаданные


В SDMX метаданные (Metadata) разделены на две группы:


  • Структурные метаданные (Structural metadata) – это набор концептов, используемых для описания и идентификации статистических данных и метаданных
  • Ссылочные (или поясняющие) метаданные (Reference metadata) – большой набор концептов, которые определяют и квалифицируют наборы данных и которые обычно описывают не наблюдение или серию данных, но весь набор данных или даже организацию, которая предоставляет данные. Ссылочные метаданные обычно имеют текстовый или HTML-формат и используют концепты, описывающие содержание, методологию и качество данных.

Описание структуры метаданных Metadata Structure Definition (MSD) включает информацию о том, как организованы наборы метаданных, содержащие ссылочные значения (аналогично DSD). В частности, MSD описывает, что входит в обмен метаданными и как концепты соотносятся друг относительно друга, как они будут показаны (в виде текста или значения из справочника) и с каким типом объекта (agency, dataflow, data provider, dataset и др.) они связаны.


Набор ссылочных метаданных (METADATASET) — это информация, непосредственно описывающая статистический подход, организацию, предоставляющую данные или структуру данных, календарь публикаций, качество данных и прочее, в соответствии со структурой метаданных.



Представление ссылочных метаданных на сайте Европейского центрального банка

Руководящие принципы по информационному наполнению


Руководящие принципы по информационному наполнению (Content-oriented guidelines) — это набор рекомендаций в пределах SDMX стандарта. Их цель — максимальная совместимость в обмене данными и метаданными между организациями. Их использование между статистическими организациями поощряется насколько это возможно. Основными документами являются:


  • Список междоменных концептов
  • Статистические предметно-ориентированные области
  • Общий словарь метаданных

Список междоменных концептов (Cross-Domain Concepts) содержит перечень статистических концептов, которые относятся к статистическому процессу и качеству данных. Этот перечень базируется на концептах, используемых международными организациями- спонсорами. Он не исчерпывающий и будет дополняться в будущем.

Концепты могут быть использованы как для данных, так и для метаданных. Каждый концепт имеет уникальный код и описание контекста, в котором данный концепт может быть использован, а также презентацию в SDMX-стандарте.


Статистические предметно-ориентированные области (Content-Oriented Domains) — классификация верхнего уровня, основанная на работе Европейской экономической комиссии ООН (UNECE) о статистических областях. Классификация предлагает стартовую точку в организации обмена статистических данных и метаданных.


Общий словарь метаданных Metadata Common Vocabulary (MCV) содержит концепты и связанные с ними измерения, используемые в структурных и ссылочных метаданных международных организаций и национальных агентств. MCV — словарь который рекомендует использовать общую терминологию с целью упростить коммуникации и понимание. MCV тесно привязана к междоменным концептам и также содержит все эти концепты, указывая их определение и описание контекста.


IT-инструменты для работы с SDMX


Перечень инструментов для работы с SDMX представлен на сайте sdmx.org.

Основным инструментом для работы со структурными метаданными является разработка компании Metadata Technology — Fusion Registry. Работает как веб-приложение. Существует в двух версиях – Community (бесплатная версия с ограничениями по возможностям) и Enterprise Edition (платная). Данное программное обеспечение в качестве единого регистратора (единой точки сбора и распространения данных и метаданных) использует Международный валютный фонд sdmxcentral.imf.org. Также этот программный продукт использует SDMX-комьюнити — registry.sdmx.org.


В Fusion Registry последних версий практически полностью реализован весь функционал стандарта. Приложение также может работать как SDMX регистратор. К сожалению, отсутствует возможность формирования данных и метаданных в SDMX формате.


Data Structure Wizard — Java-приложение для создания структурных метаданных версии 2.0 и 2.1, поддерживает создание всех основных SDMX сущностей.


SDMX converter — основной инструмент для работы с SDMX данными, созданный Евростатом. Позволяет сформировать набор данных (но не метаданных) из файлов формата Excel, CSV, FLR, а также конвертировать данные между различными форматами SDMX.


Вместо заключения


Стандартизация статистической информации в рамках стандарта SDMX существенно упрощает распространение и анализ данных. Использование web-сервисов позволяет упростить процессы обработки массивов информации и обеспечить подключение смежных систем, предоставляя любому пользователю возможность получить и сравнить интересующие его макроэкономические показатели по разным странам мира. Указанные преимущества стандарта SDMX лежат в основе реализуемого в настоящее время в России межведомственного проекта по внедрению стандарта в практику распространения статистических данных как в рамках информационного обмена с международными организациями, так и в рамках предоставления данных неограниченному кругу пользователей с использованием портальных технологий.


Список сайтов по тематике SDMX:
sdmx.org (A global initiative to emprove Statistical Data and Metadata eXchange)
ec.europa.eu/eurostat/ (Eurostat – European Commision)
sdmxcentral.imf.org (IMF SDMX Central)
sdmxsource.org (Open source reference implementation of SDMX)
dati.istat.it (Italian National Institute of Statistics)
Tags:
Hubs:
Total votes 9: ↑9 and ↓0+9
Comments1

Articles