Информация для администраторов СЭД «Обращения граждан»

    2 марта 2017 рабочей группой при Администрации Президента РФ утвержден новый типовой общероссийский тематический классификатор обращений граждан, организаций и общественных объединений. Файл разослан в регионы в PDF.

    Для тех, кто будет парсить текст, и редко работает с re, напомню выражение для Питона:
    Исходный список:

    0002.0013.0140.0282 Управление в сфере научной и научно-технической деятельности
    0002.0013.0140.0282.0006 Иные подвопросы

    r'((([\d]{4}\.){3,4}[\d]{4})([\s\S]+?))[\d]{4}\.'
    возвращает фрагмент текста,
    имеющий начало (код вопроса):
    (([\d]{4}\.){3,4}[\d]{4}) — три или четыре группы по 4 цифры с точкой + еще 4 цифры

    середину:
    ([\s\S]+?) — текст вопроса

    и конец:
    [\d]{4}\. — 4 цифры с точкой (код следующего вопроса)


    match.groups()[1] — код вопроса
    match.groups()[3] — текст вопроса

    Не забудьте, что
    re не ищет с перекрытием, re.findall и re.finditer вернут только нечетные вопросы,
    re не ищет до конца файла, последний вопрос пропадет (поправьте, если я не прав).

    Забрать pdf-оригинал и уже распарсенный текст можно здесь

    П.С.
    Добавлено 32 вопроса, ошибки остались:
    вопрос «0003.0009.0103.0613 — Ритуальные услуги»
    так и остается в теме «0003.0009.0103.0000 — Общественное питание»

    Я писал А.В. Попову, чтобы исправили. Видимо это сложно.
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 0

    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

    Самое читаемое