Открытые данные по государственным услугам РФ

    Уверен что многие из Вас, а может быть и все уже сталкивались с сайтом госуслуг.
    То что я наблюдаю, так или иначе, хорош он или плох, а интерес к нему есть.
    Однако, чтобы этот интерес реализовать на полную лично я считаю что необходимы открытые данные.

    И такие открытые данные есть. Пусть и предоставляемые не Минсвязи, а извлеченные с сайта госуслуг специальным парсером, но они существуют.

    Например, эти данные позволили мне месяц назад получить некоторые интересные цифры по анализу организаций на этом сайте и их контактов.


    Процитирую из того своего поста:
    На сайте Госуслуг 19989 зарегистрировано госорганизаций.

    У организаций всего указано 6730 уникальных email’ адресов (у некоторых структур адреса дублируются так что мы рассматриваем только уникальные). Из них:

    — 412 (6%) – запонены некорректно, не проходят валидацию.
    — 59 (1%) – указывают на несуществующие домены
    — 1517 (22.5%) являются адресами бесплатной электронной почты такой как Mail.ru, Google Mail, Яндекс.Почта и Почта Рамблера.
    Подробнее по каждому:
    – 982 (64.7%) – Mail.ru
    – 305 (20.1%) – Яндекс.Почта
    – 118 (7.8%) – Почта Рамблера
    – 112 (7.4%) – Google Mail
    – 30 – HotMail (1.97%)


    Однако я взглянул на все это лишь с одной стороны и я совершенно уверен что там существует куда больше проблем. Например, во многих случаях указаны совершенно неверные контактные телефоны, огромное число организаций без мест оказания услуг, много организаций вообще к услугам не привязанных, у большей части организаций не указаны контакты и так далее.
    Наверняка, многие из Вас смогут найти там интересные данные для визуализации и анализа.

    А сами данные доступны в форматах пригодных для использования в MongoDB:
    — в формате JSON через Mongoexport — http://export.opengovdata.ru/raw/gs_json.7z
    — в формате BSON через Mongodump — http://export.opengovdata.ru/raw/gs_bson.7z

    Массив в большей степени нацелен на анализ организаций, а не госуслуг, поэтому главная таблица там — это orgs. Также есть несколько вспомогательных таблиц через которые считалась статистика по доменам, email адресам и так далее.

    Описание структуры данных следующее

    Коллекция orgs — организации
    • _id — уникальный код организации в системе, идентификатор Mongodb
    • key — уникальный код организации на сайте Госуслуг
    • name — название организации
    • url — ссылка на сайте Госуслуг
    • level — уровень подчиненности организации
    • parent — код родительской организации, если есть
    • profile — массив из массивов по 2 строки в каждом с перечислением полей из профиля организации
    • childs — дочерние организации в виде словаря
    • childs.num — число организаций
    • childs.list — список/массив кодов организаций
    • services — словарь с описанием услуг предоставляемых данной организацией
    • services.exists — флаг существования блока услуг у организации
    • services.items — массив из словарей услуг с полями name и url
    • suborgs — словарь подчиненных организаций
    • suborgs.exists — флаг существования блока у организации
    • suborgs.items — массив из словарей услуг с полями key, name и url
    • unknown — блок «неизвестности» страницы в виде словаря. Присутствует только если нет других блоков
    • unknown.exists — флаг существования блока услуг у организации
    • unknown.items — массив, всегда пустой
    • contacts — словарь контактов организации
    • contacts.exists — флаг существования блока у организации
    • contacts.items — массив из строк с контактами
    • places — словарь мест оказания услуг
    • places.exists — флаг существования блока у организации
    • places.items — массив из строк с описанием мест оказания услуг


    Коллекция pages — страницы
    • _id — уникальный код в системе, идентификатор Mongodb
    • url — ссылка на запрошенную страницу
    • rurl — url страницы после редиректа со стороны сайта госуслуг
    • page — кусок кода HTML содержанием страницы.


    Коллекция domains — домены сайтов (на основе данных о email адресах)
    • _id — уникальный код в системе, идентификатор Mongodb
    • domain — домен
    • has_a — флаг наличие записи A в DNS
    • a — массив из словарей с полем name и перечнем результатов запроса A к DNS
    • has_mx — флаг наличия записи MX в DNS
    • mx — массив из словарей с полями name (название сервера), l2_dom (домен второго уровня сервера), priority (приоритет) и перечнем результатов запроса MX к DNS


    Коллекция mx_servers — почтовые сервера
    • _id — уникальный код в системе, идентификатор Mongodb
    • domain — домен почтового сервера
    • l2_dom — домен второго уровня
    • num_domains — число доменов использующих данный MX сервер
    • domains — массив доменов использующих данный MX сервер


    Коллекция emails — email адреса из контактов организаций
    • _id — уникальный код в системе, идентификатор Mongodb
    • email — адрес электронной почты
    • domain — домен email алреса
    • parsed — флаг что email адрес разобран
    • valid — флаг что email адрес корректен
    • has_a — флаг наличие записи A в DNS
    • a — массив из словарей с полем name и перечнем результатов запроса A к DNS
    • has_mx — флаг наличия записи MX в DNS
    • mx — массив из словарей с полями name (название сервера), l2_dom (домен второго уровня сервера), priority (приоритет) и перечнем результатов запроса MX к DNS


    Коллекция services — государственные услуги
    описание пока неполно, по услугам есть только названия и привязки к организациям
    • _id — уникальный код в системе, идентификатор Mongodb
    • name — название госуслуги
    • url — ссылка на сайт госуслуг
    • num_orgs — число организаций
    • orgs — массив из кодов организаций оказывающих данную услугу


    А также, те из вас кто задумается о том как можно поработать с этими данными предлагаю обратить внимание на каталог в OpenGovData.ru данные из которого можно попробовать использовать для улучшения/анализа данных о госуслугах.

    Желающим также могу передать код извлечения и разбора данных с Госуслуг. Я вскоре его, в любом случае, размещу в открытом доступе, но пока он не особо готов для публикации — без комментариев и пояснений.

    Комментарии 24

      –30
      смею предположить, что люди не хотят утечки информации о своей организации… Персональные данные — они и в Африке персональные данные, и открывать их не надо… зачем?
        +33
        Персональные данные — это из другой истории. Данные по организациям предоставляющим госуслуги никак персональными быть не могут, они публичны априори.
          +2
          Подтверждаю. В соответствии с законом персональные данные — это "любая информация, относящаяся к определенному или определяемому на основании такой информации физическому лицу (субъекту персональных данных), в том числе его фамилия, имя, отчество, год, месяц, дата и место рождения, адрес, семейное, социальное, имущественное положение, образование, профессия, доходы, другая информация".
          Данные же о коммерческих и некоммерческих организациях в большинстве своем не конфиденциальны, если это прямо не предусмотрено законом, а некоторые сведения об определенных организациях и вовсе обязательны для публикования. Например, ОАО обязательно публикуют годовой отчет общества, годовую бухгалтерскую отчетность и другие сведения.
        0
        тогда портал можно будет как справочник использовать?
          +1
          Конечно можно.
            –12
            а зачем сайт госуслуг превращать в очередной справочник?
              +1
              Анонимность в интернете — привилегия физических лиц. Зачем компаниям скрывать свои контактные данные? Прячутся от потенциальных клиентов?
                0
                Прошу прощения, не компании, а госорганизации.
          +5
          На мой взгляд, во многих структурах работает 99% старых пердунов до 12 часов дня максимум. Многие просто не умеют работать за компом. От них государство требует предоставить информацию на портале госуслуг, ставит сроки предоставления информации и т.д., а на самом деле, таким работникам это просто на фиг не надо.

          Даже, если им сильно хочется, предоставить всё правильно, то из 10 — там 1 хоть что-то может внятное написать. + у многих людей работающих в гос. организациях есть фобия работы на компьютере. Всю жизнь были бумажки, а теперь нужно переучиваться. Потому-то так всё и получается.
            +1
            Дело не только в том кто работает, а в том как портал услуг организован. У многих госструктур есть централизованные справочники которые они просто-напросто не могут загрузить ибо такого интерфейса на портале нет, в итоге данные вносят вручную со всем сопутствующим этому «качеством».
              0
              в нашей версии реальности еще не изобрели vcard. подождите, еще лет 50 и его откроют.
                0
                Это тоже, но и по этой причине важна доступность открытых данных. Мы можем сделать vcard самостоятельно из разобранных данных контактов.
            0
            А бывает, что начальство даже на своем сайте публикует только email приемной, даже без телефона. Почему? — «А мало ли что? Вдруг, в Администрации не одобрят?»
              0
              Мне кажется, многие делают организации там для галочки, потому как на письма можно не отвечать, а постоянно звонящий телефон — это уже серьезная обуза.
                0
                На своем собственном сайте. У нас же очень свободная и демократичная атмосфера в обществе. Все боятся, «как бы чего не вышло».
              +1
              Меня немного смущает количество почтовых ящиков на базе бесплатных общедоступных сервисов.
              Либо у организаций нет системного администратора и ящик регистрировала секретарша, либо администратор есть, но он не умеет поднимать почтовый сервер на домене организации. В любом случае все как-то неправильно, у любой уважающей себя организации должен быть свой, корпоративный почтовый сервер, как для удобства, так и для имиджа. Но это мое личное мнение, возможно я не прав и ящик на mail.ru — это то, что нужно.
              • НЛО прилетело и опубликовало эту надпись здесь
                  0
                  Централизованная гос.почта — это зарезервированный на чёрный день попил
                  0
                  Да даже уметь ничего не надо, есть pdd.yandex.ru, есть гугл…

                  Скорей всего там либо системный администратор еще времен Эльбруса))) либо студент за копейки.
                    0
                    Как правило всё намного проще.
                    «Мне просто так удобнее»
                    «Я кроме майл точка ру ничего не умею!»
                    Ну и кривые админы с кривыми серверами да, был случай недавно, написал письмо, а его зарезал «настроенный» почтовик, оказалось у него запрет на принятие писем с нерусских IP
                      0
                      Когда-то в бытность работы «эникейщиком» поднимал почтовый сервер для организаций, но сотрудники его игнорировали — веб-интерфейс mail.ru им казался куда лучше, чем десктопные клиенты или open source веб-интерфейсы.
                      0
                      По-моему, сайты госструктур — это как раз тот случай, когда нужно по-максимуму использовать централизацию. Логично, что хороший уровень разработки себе могут позволить только самые крупные федеральные структуры, а какой-нибудь муниципальный сайт с вероятностью 98% будет ужасен. Нужен федеральный движок-платформа для разработки сайтов всех уровней с единой службой поддержки, командой администраторов, работающих 24/7, экспертами по юзабилити/ацессибилити и т.п.
                        +1
                        Централизация имеет свои оборотные стороны в виде того что это не только «единая точка входа», но и «единая точка сбоя». В Европе, США и вообще в развитых странах идут по пути четких технических требований к сайтам и жесткого соблюдения этих требований.

                        Не говоря уже о том что мы по конституции живем в федеративной республике и что-бы там не делала федеральная власть, по большому счету, навязывать свои решения регионам и муниципалитетам они прав не должны иметь. Иначе этот «федеральный движок-платформа» станет ещё одним кирпичиком в «вертикали власти».
                          0
                          Согласен в целом.

                          Возможно, полезным было бы начать с централизованной системы, параллельно разработав станданты и требования. Регион или муниципалитет волен либо использовать готовую федеральную систему, либо разработать свою в соответствии с регламентом, сохранив интеграцию с федеральной (автоматизированный обмен данными, поиск, передача запросов и новостей), но и сохранив независимость (сами базы данных и управление доступом к ним остаются в регионе/муниципалитете).

                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                      Самое читаемое