Как стать автором
Обновить

Комментарии 34

НЛО прилетело и опубликовало эту надпись здесь
постройте на основе этих данных какой-нибудь сервис
НЛО прилетело и опубликовало эту надпись здесь
Нет. API — это если Вы используете некие информационные ресурсы организации предоставляющей этот API (работаете с ними по средствам процедур API). Ну и соответственно получаете некие данные как производная использования их ресурсов (контента) в своих целях).

Тут речь (замечание) идет несколько о другом.
Чем это не текстовая разметка?
А кто говорит что нет? Только вот нужны машиночитаемые данные. Ваш КО.
НЛО прилетело и опубликовало эту надпись здесь
Это еще не худшее понимание. Несколько раз я слышал от чиновников высказвания: «А что такое открытые данные? Типа данные читаемые в машине? Газеты что-ли?»
А нет никакого экспертного механизма оценки внедрения вот таких вот решений?
Вот каждый раз когда такое находим приходится придумывать новый механизм. Это еще не верх совершенства. Я знаю один государственный датасет в виде XML на 2 гигабайта который весь в одну строку без переводов строк. Не передать сколько времени ушло на то чтобы подобрать для него парсер способный его переварить.
У вас интересная работа.
если честно написать «добавлялку переносов» с помощью sed-а можно за пару минут, ну еще sed его несколько минут будет лопатить, не очень понимаю в чем засада?
Вот так и было решено в итоге, не sed'ом, а другим редактором, но суть та же.
xmllint --format спасет мир — вполне себе форматирует нормально, он еще что-то умеет, но мне как раз помог избавиться от однострочного XML на ура.
Не очень понятно, какая разница парсеру есть там переносы строк или нет. Для него это такие же байтики, как и все остальное. Только человеку они важны.
Я так понимаю, что любой SAX парсер без проблем его переварит. Ну и отформатировать можно им же, если есть желание.
А вот не любой оказывается.
А какой не переваривает?
Если XML валидный то попробуйте xmllint --format (если невалидный — то попробуйте еще --recover)
xmlsoft.org/xmllint.html
Чем это не текстовая разметка?


Вопрос в том, что оператор (секретарь) который составлял эту структуру, ничего не подозревает о «каких-то там открытых данных». Этому оператору установят совершенно версию офисной программы, структура xml-файла соответственно поменяется. Да и индекса у представленных абстрактных объектах в таком формате нет.
Я так подозреваю, если речь идет об открытых данных, то они должны как минимум соответствовать следующим критериям:

1) Публичность данных и общий доступ к ним (естественно должен быть определен критерий «разглашения данных»);
2) Возможность получать эти данные в любое время (по средствам телекоммуникаций), и в любом известном (желательно свободном/открытом) формате;
3) Данные должны быть строго структурированы;
4) Должны предоставляться в реляционном виде и соответственно иметь некий индекс записей (для их отслеживания и возможной корректировки);
5) Скорее всего должны быть упакованы;
6) Сам файл должен иметь (независимо от содержимого) наименование, дата-временную метку и версию архива (сборки);

По этому поводу лучше почитать: Гайдамакин Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: Учебное пособие. — М.: Гелиос АРВ, 2002.

p/s. но это я так предполагаю, (отвечая на Ваш вопрос).
И тут «разглашение»…
Вы забыли очень важную вещь: лицензию. Сейчас очень много данных публикуются в режиме «на посмотреть», потому что чиновники под «открытостью» понимают как раз тупо противоположность «секретности», то есть всего лишь возможность ознакомиться с информацией. Как с текстом ГОСТов, например, который не может быть защищен каким-либо авторским правом (т.к. это закон), но соответствующие организации очень заинтересованы, чтобы эти тексты можно было продавать, а потому сайт с «открытым доступом к стандартам» имеет пусть и примитивную, но довольно многослойную защиту, осложняющую получение полного текста стандарта любым желающим.
Так что пунктом «0» должна быть прописана открытая лицензия, позволяющая делать с однажды опубликованными данными все, что захочется сделать пользователям.
Пример из разряда абсурдных, так что есть вероятность, что сделано это по глупости.

Но есть и другие примеры, когда данные вроде бы даже отвечают задаче, которая ставится перед их публикацией, но по ходу дела выясняется, что, скажем, геопространственная информация там — результат геокодирования адресов через сервис Яндекса, адреса неправильные, данные кривые и устаревшие, и так далее.
То есть это уже не глупость, а откровенное наплевательство на качество работы.

А хуже всего то, что даже здесь на Хабре находятся люди без моральных принципов, которые готовы полить воду на мельницу таких вот горе-поставщиков открытых данных, и участвуют в разнообразных конкурсах на их применение (создавая бессмысленные сервисы), либо с пеной у рта доказывают, что это, мол, «первый блин комом», хотя этим блинам уже часто много месяцев, сменилось много версий, а качество как было жутким, так и осталось.
«Не надо искать умысел, где всё можно объяснить глупостью».

Сказали какому-то не очень квалифицированному работнику, что нужна эта структура в виде XML, и, мол, вот тебе файл со структурой.

— Хмм, че за XML такой. А, вот, «Сохранить как XML-документ». Готово.
Ну уж как минимум надо проверить качество выполненного задания, данного работнику, а это уже чистой воды халатность, но никак не глупость.
Так они наверно и проверили. Открыли этот XML в винде — открылся вордовский файл с табличкой. Вывод — всё работает, всё правильно.
Ну значит надо уволить не только того, кто седлал такой XML, но и того, кто «проверил».
Иначе это никогда не закончится.
НЛО прилетело и опубликовало эту надпись здесь
Хорошо хоть не «нажать правую кнопку -> переименовать -> добавить .xml в конце».
Глупостью тоже иногда проще всего объяснить что угодно — это знает любой ребенок, который хоть раз сделал что-то нехорошее и сказал «а я не знал, что так нельзя».
В практике публикации государственными органами разнообразной информации уже не раз и не два проскакивали ситуации, когда данные публиковались только «на посмотреть», при том делалось это совершенно явно намеренно. Примеры: тексты государственных стандартов, которые показываются постранично в виде картинок, которые поставлены на фон страницы и чьи URL генерируются при открытии страницы каждый раз заново, что однозначно говорит о попытке во что бы то ни стало помешать получению полного текста ГОСТа и т.п. Или известные многим карты на портале ГосГИСЦентра, которые сейчас гуляют по торрентам, а на самом портале — отсутствуют, потому что доступ к ним был закрыт, когда организаторы портала и их заказчики поняли, что защита от скачивания недостаточно хороша и карты (которые в соответствии с распоряжением должны были быть общедоступными, пусть и без уточнения, в каком режиме) утекают.

Так что хотя глупость и действительно более вероятна, но отбросить версию умысла, опираясь на прецеденты, уже тоже нельзя.
И самое интересное: публикуемые наборы данных должны сопровождаться паспортом (этих самых данных),
в котором отдельным пунктом идет «Описание структуры набора данных», т.е. всё — поля/идентификаторы, свойства — должно быть описано.
Пример того, как оно «правильно» — можно глянуть тут.
Так что теперь ждем от ФСОЗ, когда они опишут структуру предоставляемых ими открытых данных.
НЛО прилетело и опубликовало эту надпись здесь
Открытые данные «по-военному», от забора и до обеда.
Последнее время все чаще натыкаюсь на тэг binaryData…
Даже не знаю, хорошо это или плохо
Зарегистрируйтесь на Хабре, чтобы оставить комментарий