ibegtin 7 ноя 2013 в 12:36

Как нельзя публиковать открытые данные и почему не все XML файлы одинаково полезны

2 мин

27K

Блог компании «Информационная культура»Открытые данные*

+80

Комментарии 34

НЛО прилетело и опубликовало эту надпись здесь

ganqqwerty 7 ноя 2013 в 13:26

постройте на основе этих данных какой-нибудь сервис

НЛО прилетело и опубликовало эту надпись здесь

zhogar 8 ноя 2013 в 13:26

Нет. API — это если Вы используете некие информационные ресурсы организации предоставляющей этот API (работаете с ними по средствам процедур API). Ну и соответственно получаете некие данные как производная использования их ресурсов (контента) в своих целях).

Тут речь (замечание) идет несколько о другом.

PopeyetheSailor 7 ноя 2013 в 13:29

Чем это не текстовая разметка?

А кто говорит что нет? Только вот нужны машиночитаемые данные. Ваш КО.

НЛО прилетело и опубликовало эту надпись здесь

ibegtin 7 ноя 2013 в 13:35

Это еще не худшее понимание. Несколько раз я слышал от чиновников высказвания: «А что такое открытые данные? Типа данные читаемые в машине? Газеты что-ли?»

PopeyetheSailor 7 ноя 2013 в 13:37

А нет никакого экспертного механизма оценки внедрения вот таких вот решений?

ibegtin 7 ноя 2013 в 13:49

Вот каждый раз когда такое находим приходится придумывать новый механизм. Это еще не верх совершенства. Я знаю один государственный датасет в виде XML на 2 гигабайта который весь в одну строку без переводов строк. Не передать сколько времени ушло на то чтобы подобрать для него парсер способный его переварить.

PopeyetheSailor 7 ноя 2013 в 13:53

У вас интересная работа.

smind 7 ноя 2013 в 14:02

если честно написать «добавлялку переносов» с помощью sed-а можно за пару минут, ну еще sed его несколько минут будет лопатить, не очень понимаю в чем засада?

ibegtin 7 ноя 2013 в 14:13

Вот так и было решено в итоге, не sed'ом, а другим редактором, но суть та же.

eaa 7 ноя 2013 в 18:42

xmllint --format спасет мир — вполне себе форматирует нормально, он еще что-то умеет, но мне как раз помог избавиться от однострочного XML на ура.

potan 28 ноя 2013 в 13:45

Не очень понятно, какая разница парсеру есть там переносы строк или нет. Для него это такие же байтики, как и все остальное. Только человеку они важны.

zvorygin 7 ноя 2013 в 14:06

Я так понимаю, что любой SAX парсер без проблем его переварит. Ну и отформатировать можно им же, если есть желание.

ibegtin 7 ноя 2013 в 14:13

А вот не любой оказывается.

zvorygin 8 ноя 2013 в 05:59

А какой не переваривает?

alexhemp 7 ноя 2013 в 15:30

Если XML валидный то попробуйте xmllint --format (если невалидный — то попробуйте еще --recover)
xmlsoft.org/xmllint.html

zhogar 8 ноя 2013 в 13:35

Чем это не текстовая разметка?

Вопрос в том, что оператор (секретарь) который составлял эту структуру, ничего не подозревает о «каких-то там открытых данных». Этому оператору установят совершенно версию офисной программы, структура xml-файла соответственно поменяется. Да и индекса у представленных абстрактных объектах в таком формате нет.

zhogar 8 ноя 2013 в 13:16

Я так подозреваю, если речь идет об открытых данных, то они должны как минимум соответствовать следующим критериям:

1) Публичность данных и общий доступ к ним (естественно должен быть определен критерий «разглашения данных»);
2) Возможность получать эти данные в любое время (по средствам телекоммуникаций), и в любом известном (желательно свободном/открытом) формате;
3) Данные должны быть строго структурированы;
4) Должны предоставляться в реляционном виде и соответственно иметь некий индекс записей (для их отслеживания и возможной корректировки);
5) Скорее всего должны быть упакованы;
6) Сам файл должен иметь (независимо от содержимого) наименование, дата-временную метку и версию архива (сборки);

По этому поводу лучше почитать: Гайдамакин Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: Учебное пособие. — М.: Гелиос АРВ, 2002.

p/s. но это я так предполагаю, (отвечая на Ваш вопрос).

Moskus 10 ноя 2013 в 19:00

И тут «разглашение»…
Вы забыли очень важную вещь: лицензию. Сейчас очень много данных публикуются в режиме «на посмотреть», потому что чиновники под «открытостью» понимают как раз тупо противоположность «секретности», то есть всего лишь возможность ознакомиться с информацией. Как с текстом ГОСТов, например, который не может быть защищен каким-либо авторским правом (т.к. это закон), но соответствующие организации очень заинтересованы, чтобы эти тексты можно было продавать, а потому сайт с «открытым доступом к стандартам» имеет пусть и примитивную, но довольно многослойную защиту, осложняющую получение полного текста стандарта любым желающим.
Так что пунктом «0» должна быть прописана открытая лицензия, позволяющая делать с однажды опубликованными данными все, что захочется сделать пользователям.

platerx 7 ноя 2013 в 13:39

del

Moskus 7 ноя 2013 в 21:30

Пример из разряда абсурдных, так что есть вероятность, что сделано это по глупости.

Но есть и другие примеры, когда данные вроде бы даже отвечают задаче, которая ставится перед их публикацией, но по ходу дела выясняется, что, скажем, геопространственная информация там — результат геокодирования адресов через сервис Яндекса, адреса неправильные, данные кривые и устаревшие, и так далее.
То есть это уже не глупость, а откровенное наплевательство на качество работы.

А хуже всего то, что даже здесь на Хабре находятся люди без моральных принципов, которые готовы полить воду на мельницу таких вот горе-поставщиков открытых данных, и участвуют в разнообразных конкурсах на их применение (создавая бессмысленные сервисы), либо с пеной у рта доказывают, что это, мол, «первый блин комом», хотя этим блинам уже часто много месяцев, сменилось много версий, а качество как было жутким, так и осталось.

kit 8 ноя 2013 в 02:05

«Не надо искать умысел, где всё можно объяснить глупостью».

Сказали какому-то не очень квалифицированному работнику, что нужна эта структура в виде XML, и, мол, вот тебе файл со структурой.

— Хмм, че за XML такой. А, вот, «Сохранить как XML-документ». Готово.

eaa 8 ноя 2013 в 06:07

Ну уж как минимум надо проверить качество выполненного задания, данного работнику, а это уже чистой воды халатность, но никак не глупость.

SVlad 8 ноя 2013 в 06:20

Так они наверно и проверили. Открыли этот XML в винде — открылся вордовский файл с табличкой. Вывод — всё работает, всё правильно.

eaa 8 ноя 2013 в 06:55

Ну значит надо уволить не только того, кто седлал такой XML, но и того, кто «проверил».
Иначе это никогда не закончится.

НЛО прилетело и опубликовало эту надпись здесь

Yan169 8 ноя 2013 в 10:15

Хорошо хоть не «нажать правую кнопку -> переименовать -> добавить .xml в конце».

Moskus 10 ноя 2013 в 19:07

Глупостью тоже иногда проще всего объяснить что угодно — это знает любой ребенок, который хоть раз сделал что-то нехорошее и сказал «а я не знал, что так нельзя».
В практике публикации государственными органами разнообразной информации уже не раз и не два проскакивали ситуации, когда данные публиковались только «на посмотреть», при том делалось это совершенно явно намеренно. Примеры: тексты государственных стандартов, которые показываются постранично в виде картинок, которые поставлены на фон страницы и чьи URL генерируются при открытии страницы каждый раз заново, что однозначно говорит о попытке во что бы то ни стало помешать получению полного текста ГОСТа и т.п. Или известные многим карты на портале ГосГИСЦентра, которые сейчас гуляют по торрентам, а на самом портале — отсутствуют, потому что доступ к ним был закрыт, когда организаторы портала и их заказчики поняли, что защита от скачивания недостаточно хороша и карты (которые в соответствии с распоряжением должны были быть общедоступными, пусть и без уточнения, в каком режиме) утекают.

Так что хотя глупость и действительно более вероятна, но отбросить версию умысла, опираясь на прецеденты, уже тоже нельзя.

kabr 8 ноя 2013 в 09:54

И самое интересное: публикуемые наборы данных должны сопровождаться паспортом (этих самых данных),
в котором отдельным пунктом идет «Описание структуры набора данных», т.е. всё — поля/идентификаторы, свойства — должно быть описано.
Пример того, как оно «правильно» — можно глянуть тут.
Так что теперь ждем от ФСОЗ, когда они опишут структуру предоставляемых ими открытых данных.

НЛО прилетело и опубликовало эту надпись здесь

Tint 8 ноя 2013 в 10:40

Открытые данные «по-военному», от забора и до обеда.

kentilini 8 ноя 2013 в 11:50

Последнее время все чаще натыкаюсь на тэг binaryData…
Даже не знаю, хорошо это или плохо

Зарегистрируйтесь на Хабре, чтобы оставить комментарий