Как нельзя публиковать открытые данные и почему не все XML файлы одинаково полезны

    Когда пишешь о лучших и худших примерах публикации открытых данных очень сложно не превратить эту рубрику в кунсткамеру и не показать насколько странно иной раз происходит публикация данных и что может скрываться за данными на самом деле.

    Случай который я опишу в этот раз не то чтобы уникальный, но редкий.
    Речь пойдет об открытых данных, не много не мало, а Федеральной службы по оборонному заказу (сайт — www.fsoz.gov.ru).

    На сайте этой службы совсем недавно появился раздел "Открытые данные" где собственно открытые данные в машиночитаемом формате и публикуются.
    Размещено там немного не мало, а 15 наборов данных.

    Ссылки на них есть на сайте, а я приведу полный список.

    • История и официальная символика
    • Структура Рособоронзаказа
    • Полномочия и порядок их исполнения
    • Руководство
    • Межрегиональные управления и подведомственные организации
    • Функции межрегиональных управлений и подведомственных организаций
    • Госслужба. Информационные материалы.
    • Информационные материалы по представлению (переоформлению) лицензий в сфере государственного оборонного заказа
    • Финансовая отчётность
    • Основные показатели и результаты деятельности
    • Антикоррупционная деятельность. Сведения о доходах.
    • Показатели размещения заказов
    • Коллегии Рособоронзаказа
    • Порядок обжалования решений, действий (бездействия)
    • Контакты


    Данные не то чтобы очень интересные, но что-то можно было бы использовать и я решил открыть наугад массив Структура Рособоронзаказа

    Внутри, всё по честному, оказался XML файл. Его можно скачать или разглядеть на картинке


    Ничего не узнаете? Это ничто иное как Microsoft Office XML formats использованный еще в старых офисах вплоть до 2007-го.

    Является ли этот файл действительно файлом XML? Да, безусловно. Является XML файлом текстовой разметки.
    Давайте заглянем туда внутрь. После нехитных действий по сохранению файла на диске и открытию его с помощью MS Word получился такой прекрасный файл

    с картинкой оргструктуры на выходе.

    Итого, волшебная последовательность действий:
    1. Нарисовать картинку
    2. Засунуть картинку в Word файл
    3. Сохранить Word файл в формат MS Office XML formats
    4. Профит! Все требования соблюдены, а пользы людям никакой.


    Формально они могут потом даже схемы описаний приложить и даже паспорт набора данных составить.

    Больше примеров в следующих обзорах.
    «Информационная культура»
    65.45
    Открытое государство и открытые данные
    Share post

    Comments 34

      –14
      Я дико извиняюсь, а что не так? Чем это не текстовая разметка? Другие ссылки открывали? Там есть и текстовые ноды.
        +16
        постройте на основе этих данных какой-нибудь сервис
          +22
          Ах вон что, то есть подразумевается, что этот контент аналог API. Тогда да, моя претензия беспочвенна.
            0
            Нет. API — это если Вы используете некие информационные ресурсы организации предоставляющей этот API (работаете с ними по средствам процедур API). Ну и соответственно получаете некие данные как производная использования их ресурсов (контента) в своих целях).

            Тут речь (замечание) идет несколько о другом.
          +2
          Чем это не текстовая разметка?
          А кто говорит что нет? Только вот нужны машиночитаемые данные. Ваш КО.
            +3
            Да-да, я неправильно понял понятие «машиночитаемые данные».
              +4
              Это еще не худшее понимание. Несколько раз я слышал от чиновников высказвания: «А что такое открытые данные? Типа данные читаемые в машине? Газеты что-ли?»
                +1
                А нет никакого экспертного механизма оценки внедрения вот таких вот решений?
                  +3
                  Вот каждый раз когда такое находим приходится придумывать новый механизм. Это еще не верх совершенства. Я знаю один государственный датасет в виде XML на 2 гигабайта который весь в одну строку без переводов строк. Не передать сколько времени ушло на то чтобы подобрать для него парсер способный его переварить.
                    +3
                    У вас интересная работа.
                      +3
                      если честно написать «добавлялку переносов» с помощью sed-а можно за пару минут, ну еще sed его несколько минут будет лопатить, не очень понимаю в чем засада?
                        +2
                        Вот так и было решено в итоге, не sed'ом, а другим редактором, но суть та же.
                          +4
                          xmllint --format спасет мир — вполне себе форматирует нормально, он еще что-то умеет, но мне как раз помог избавиться от однострочного XML на ура.
                          0
                          Не очень понятно, какая разница парсеру есть там переносы строк или нет. Для него это такие же байтики, как и все остальное. Только человеку они важны.
                          +1
                          Я так понимаю, что любой SAX парсер без проблем его переварит. Ну и отформатировать можно им же, если есть желание.
                            +9
                            А вот не любой оказывается.
                              +1
                              А какой не переваривает?
                            +2
                            Если XML валидный то попробуйте xmllint --format (если невалидный — то попробуйте еще --recover)
                            xmlsoft.org/xmllint.html
                      0
                      Чем это не текстовая разметка?


                      Вопрос в том, что оператор (секретарь) который составлял эту структуру, ничего не подозревает о «каких-то там открытых данных». Этому оператору установят совершенно версию офисной программы, структура xml-файла соответственно поменяется. Да и индекса у представленных абстрактных объектах в таком формате нет.
                      0
                      Я так подозреваю, если речь идет об открытых данных, то они должны как минимум соответствовать следующим критериям:

                      1) Публичность данных и общий доступ к ним (естественно должен быть определен критерий «разглашения данных»);
                      2) Возможность получать эти данные в любое время (по средствам телекоммуникаций), и в любом известном (желательно свободном/открытом) формате;
                      3) Данные должны быть строго структурированы;
                      4) Должны предоставляться в реляционном виде и соответственно иметь некий индекс записей (для их отслеживания и возможной корректировки);
                      5) Скорее всего должны быть упакованы;
                      6) Сам файл должен иметь (независимо от содержимого) наименование, дата-временную метку и версию архива (сборки);

                      По этому поводу лучше почитать: Гайдамакин Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: Учебное пособие. — М.: Гелиос АРВ, 2002.

                      p/s. но это я так предполагаю, (отвечая на Ваш вопрос).
                        +1
                        И тут «разглашение»…
                        Вы забыли очень важную вещь: лицензию. Сейчас очень много данных публикуются в режиме «на посмотреть», потому что чиновники под «открытостью» понимают как раз тупо противоположность «секретности», то есть всего лишь возможность ознакомиться с информацией. Как с текстом ГОСТов, например, который не может быть защищен каким-либо авторским правом (т.к. это закон), но соответствующие организации очень заинтересованы, чтобы эти тексты можно было продавать, а потому сайт с «открытым доступом к стандартам» имеет пусть и примитивную, но довольно многослойную защиту, осложняющую получение полного текста стандарта любым желающим.
                        Так что пунктом «0» должна быть прописана открытая лицензия, позволяющая делать с однажды опубликованными данными все, что захочется сделать пользователям.
                      –2
                      del
                        +1
                        Пример из разряда абсурдных, так что есть вероятность, что сделано это по глупости.

                        Но есть и другие примеры, когда данные вроде бы даже отвечают задаче, которая ставится перед их публикацией, но по ходу дела выясняется, что, скажем, геопространственная информация там — результат геокодирования адресов через сервис Яндекса, адреса неправильные, данные кривые и устаревшие, и так далее.
                        То есть это уже не глупость, а откровенное наплевательство на качество работы.

                        А хуже всего то, что даже здесь на Хабре находятся люди без моральных принципов, которые готовы полить воду на мельницу таких вот горе-поставщиков открытых данных, и участвуют в разнообразных конкурсах на их применение (создавая бессмысленные сервисы), либо с пеной у рта доказывают, что это, мол, «первый блин комом», хотя этим блинам уже часто много месяцев, сменилось много версий, а качество как было жутким, так и осталось.
                          +14
                          «Не надо искать умысел, где всё можно объяснить глупостью».

                          Сказали какому-то не очень квалифицированному работнику, что нужна эта структура в виде XML, и, мол, вот тебе файл со структурой.

                          — Хмм, че за XML такой. А, вот, «Сохранить как XML-документ». Готово.
                            0
                            Ну уж как минимум надо проверить качество выполненного задания, данного работнику, а это уже чистой воды халатность, но никак не глупость.
                              0
                              Так они наверно и проверили. Открыли этот XML в винде — открылся вордовский файл с табличкой. Вывод — всё работает, всё правильно.
                                +1
                                Ну значит надо уволить не только того, кто седлал такой XML, но и того, кто «проверил».
                                Иначе это никогда не закончится.
                              • UFO just landed and posted this here
                                +2
                                Хорошо хоть не «нажать правую кнопку -> переименовать -> добавить .xml в конце».
                                  0
                                  Глупостью тоже иногда проще всего объяснить что угодно — это знает любой ребенок, который хоть раз сделал что-то нехорошее и сказал «а я не знал, что так нельзя».
                                  В практике публикации государственными органами разнообразной информации уже не раз и не два проскакивали ситуации, когда данные публиковались только «на посмотреть», при том делалось это совершенно явно намеренно. Примеры: тексты государственных стандартов, которые показываются постранично в виде картинок, которые поставлены на фон страницы и чьи URL генерируются при открытии страницы каждый раз заново, что однозначно говорит о попытке во что бы то ни стало помешать получению полного текста ГОСТа и т.п. Или известные многим карты на портале ГосГИСЦентра, которые сейчас гуляют по торрентам, а на самом портале — отсутствуют, потому что доступ к ним был закрыт, когда организаторы портала и их заказчики поняли, что защита от скачивания недостаточно хороша и карты (которые в соответствии с распоряжением должны были быть общедоступными, пусть и без уточнения, в каком режиме) утекают.

                                  Так что хотя глупость и действительно более вероятна, но отбросить версию умысла, опираясь на прецеденты, уже тоже нельзя.
                                  +1
                                  И самое интересное: публикуемые наборы данных должны сопровождаться паспортом (этих самых данных),
                                  в котором отдельным пунктом идет «Описание структуры набора данных», т.е. всё — поля/идентификаторы, свойства — должно быть описано.
                                  Пример того, как оно «правильно» — можно глянуть тут.
                                  Так что теперь ждем от ФСОЗ, когда они опишут структуру предоставляемых ими открытых данных.
                                  • UFO just landed and posted this here
                                      +2
                                      Открытые данные «по-военному», от забора и до обеда.
                                        0
                                        Последнее время все чаще натыкаюсь на тэг binaryData…
                                        Даже не знаю, хорошо это или плохо

                                        Only users with full accounts can post comments. Log in, please.