Открытые данные Москвы и соревнование API Challenge на их основе

    По моему опыту общения с разработчиками которые когда-либо участвовали в соревнования по открытым данным — все они говорят о том что нужны данные как можно большего уровня детализации.

    Например, не статистика по регионам, а статистика по муниципалитетам. Не сводка преступлений/ДТП, а информация с адресами и координатами.
    Не просто адреса учреждений с координатами, а подробная информация о каждом.

    Пока таких детальных данных, прямо скажем, в удобном виде немного. Если взять Москву как пример, то даже на московском портале data.mos.ru большая часть данных — это геоданные или данные с геопривязкой в виде адреса и какой-то еще минимальной информацией. Понятное дело что сделать с ними что-то действительно интересное сложно. Поэтому скажем спасибо Правительству Москвы за то что они хотя бы это раскрыли и попробуем понять где взять более интересные данные и что с ними делать.

    Конкурсы и соревнования

    На вопрос зачем это нужно отвечу сразу — невозможно провести ни один конкурс/хакатон/соревнование для разработчиков не имея достаточного количества интересных данных. С этим мы сталкивались на хакатоне Яндекса, прошедшем конкурсе Apps4Russia и многих других.

    Поэтому сейчас, поскольку мы помогаем в подготовке конкурса API Challenge мы решили подготовить столько полезных данных сколько только возможно. А поскольку API Challenge — это конкурс идущий от власти Москвы и ориентированный на Москву — мы и данные собираем по Москве.


    Чтобы этого добиться мы начали просматривать десятки госсайтов и ищем на них то что можно использовать законно и с пользой.

    Как это происходило и продолжается


    Вначале необходимо понять где данные искать. Универсальная формула заключается в 4-х направлениях.
    1. Официальные сайты органов власти
    2. Сайты территориальных подразделений федеральных органов (ФСИН, Минюст, МВД и др)
    3. Сайты госпредприятий и регулируемых государством монополий
    4. Сайты муниципальных образований


    Последний пункт к Москве относится слабо и то лишь к новым территориям, а вот все остальные вполне существуют и доступны.

    Сайты всех департаментов мы просмотрели найдя их список на www.mos.ru интересных данных там не то чтобы мало, но мало. Часть данных из того что у них есть уже опубликованы на data.mos.ru, а другие требуют существенных усилий по извлечению их из PDF документов, например, доклады Мосэкомониторинга — это большие PDF документы которые кроме как вручную в данные не переведешь.

    Далее по сайтам территориальных управлений федеральной власти. В Москве, как и во всех регионах, есть представительства большого числа федеральных органов поскольку у нас в стране многие функции власти разделены между федеральной властью и регионами. В частности МВД относится к федеральной власти, ФСИН, Служба судебных приставов, Прокуратура и многое другое. Мы просмотрели множество их сайтов найдя их список вначале на сайте Правительства РФ, а далее проходя по каждому и находя раздел по Москве.

    И, наконец, данные по госпредприятиям и регулируемым корпорациям самые сложные в плане возможности их использования. Дело в том что естевенные обязаны публиковать многие данные согласно приказам ФАС и ФТС и эти данные только Public Domain, на них нет ограничений. Обычно эти разделы на сайтах называются «Раскрытие информации». По другой же информации на их сайтах нет однозначной юридической чистоты/понимания — тут нужна политика города в регулировании её открытости. Тем не менее для соревнования разработчиков такие данные вполне подходят в случае их высокой общественной ценности.

    Что мы нашли


    Я буду перечислять данные сразу со ссылками на массивы которые мы извлекли и которые можно скачать и сразу использовать.
    Все данные что мы собираем мы выкладываем на наш Хаб открытых данных. Это открытый некоммерческий проект сделанный по аналогии thedatahub.io у Open Knowledge Foundation. Все что на нем размещается будет открытым всегда и портал позволяет желающим выгрузить хоть все данные через CKAN API.

    Реестр адвокатов


    Эти данные размещены на сайте Минюста России — управления по Москве.

    Мы выкачали их и преобразовали в JSON, CSV и XLS с нормализованными полями. Теперь данные можно скачать здесь — http://hubofdata.ru/dataset/mosadv

    Реестр нотариусов


    Данные, опять же, с сайта Минюста.
    С ними ровно та же история — это XLS файл изначально, мы просто выкачали его, обработали в OpenRefine и преобразовали в JSON, CSV и выложили вот тут — http://hubofdata.ru/dataset/mos-notary

    Тюрьмы Москвы


    Совсем небольшой список тюрем размещен на сайте ФСИН по Москве — http://www.77.fsin.su/structure/
    Очень простым парсером он был превращен во все те же форматы JSON, CSV, XLS и размещен здесь — http://hubofdata.ru/dataset/mos-prisons

    Контакты подразделений Мосгаза по улицам

    Если предыдущие 3 массива относились к государственным данным у федеральных органов власти, то следующий массив — это данные по контактам Мосгаза который является предприятием на территории Москвы и регулируемым законами и распоряжениями о раскрытии информации.

    У Мосгаза есть раздел в котором можно введя улицу узнать контакты его подразделений. Вот он http://www.mos-gaz.ru/services/territory/

    Поскольку внутри этого раздела оказался довольно простой AJAX код — получилось в короткие сроки извлечь все контакты и все подразделения и мы выложили большой массив контактов http://hubofdata.ru/dataset/mosgaz-contacts в котором есть файлы с привязкой улиц к районам и файлы с привязкой подразделений к районам.

    Адреса ТЭЦ, ГЭС и ГРЭС Мосэнерго


    На сайте Мосэнерго, одной из естественных монополий Москвы, есть адреса их ТЭЦ, ГЭС и ГРЭС — http://www.mosenergo.ru/catalog/228.aspx список этот весьма невелик, но полезен для всех кто такими данными интересуется.

    Его было легко распарсить и выложить вот тут — http://hubofdata.ru/dataset/mosenergo-filials. Эти данные полезны для всех кто решит делать приложения по экологической обстановке в Москве и, сразу скажу, мы успели пока обработать не все данные Мосэнерго. У них много публичных отчетов в разделе "Статистический отчет по форме «2ТП-воздух» там много данных в XLS формате по каждой из станций о том сколько они выбрасывают отходов. Возможно кто-то будет готов их собрать и свести вместе.

    Адреса и характеристики отделений Почты России


    Почта России — это не орган власти, но госпредприятие часто критикуемое в виду качества работы. Данные по отделениям у них есть, в частности они публикуют их на нескольких своих сайтах основной из которых — это их сайт.

    Мы вытащили данные по их отделениям по Москве с информацией по координатам их нахождения, адресам, индексам, времени работы и так далее. Эти данные никак не удалось упаковать в CSV простым образом, так что они доступны цельным JSON файлом http://hubofdata.ru/dataset/ruspost-msk

    Жалобы на шум


    На сайте упомянутого ранее Мосэкомониторинга обнаружился небольшой, но любопытный массив данных жалоб жителей города на шум. Вот тут http://www.mosecom.ru/noise/territ/noise_stroy_pl_2013.php собраны эти жалобы и они даже имеют информацию об адресе, а то есть могут быть наложены на карты при желании.

    Эти данные мы тоже вытащили парсером и выложили на хаб — http://hubofdata.ru/dataset/msk-noise-req

    Адреса некоммерческих организаций


    А вот и пошли самые большие массивы данных. В данном случае мы заглянули на сайте Минюста и нашли что в реестре некоммерческих организаций их можно получить по региону. Вот тут — http://unro.minjust.ru/NKOs.aspx.
    На самом деле мы сделали это еще давно, в начале этого года, и данные «пылились на полке». Теперь мы их преобразовали в удобные для работы форматы и выложили на хабе — http://hubofdata.ru/dataset/mos-nko-2013

    Обратите внимание что данные разбиты на виды организаций. На случай если Вы захотите поработать отдельно над религиозными организациями и отдельно над остальными.

    Базы домов Москвы с привязкой к избирательным округам и с датами постройки


    И, наконец, данные которые могут пригодится более всего. На нескольких сайтах обнаружились подробные данные по каждому дому в Москве. Это такие сайты как dom.mos.ru, gorod.mos.ru, reformazhkh.ru, mosgorizbirkom.ru и еще ряде других.

    Мы не успели пока обработать их все и осуществить мечту по сведению всех данных по домам в единую базу, но сделали первый шаг — разобрали несколько баз и сделали возможным дальнейшее их объединение.

    Сейчас доступны:
    • База всех домов с привязкой к УИКам — http://hubofdata.ru/dataset/mos-elect-houses по кадому УИКу много дополнительной информации и информации по месту голосования
    • База дат постройки домов — http://hubofdata.ru/dataset/mos-buildings-years при том что на сайте, на самом деле, куда больше информации по каждому дому, мы собрали пока даты постройки и надеемся что найдутся желающие помочь собрать все данные


    Это, конечно же, не всё. Данных больше и мы регулярно будем выкладывать их на хаб.
    На github'е выложен весь код скриптов что мы используем https://github.com/infoculture/mosopendata

    В качестве резюме что выводы и предложения:
    1. Все что мы сейчас собираем и парсим по Москве мы предложим чиновникам из ДИТа раскрывать официально. Я думаю что они не откажутся, благо данные уже ясно где искать. Во всяком случае в тех данных которые в ведении московских властей, вот с федеральными — придется запрашивать федеральные органы что дольше.
    2. Вы вполне можете проделать то же самое в своём любимом регионе или городе и сделать портал открытых данных города или загрузить к нам на хаб или еще куда-либо для общего доступа.
    3. Участвуйте в конкурсах и соревнованиях. И в том что я привел выше, и во всех что будут. Это не только возможность опробовать свои навыки, но и получить весомый приз.
    «Информационная культура»
    65.42
    Открытое государство и открытые данные
    Share post

    Comments 0

    Only users with full accounts can post comments. Log in, please.