База всех населенных пунктов и регионов России

    Мне для одного проекта понадобилось создать базу географических наименований России. Из всех источников подобной информации наиболее авторитетными мне показались 2:

    Последняя показалась мне более простой, полной и менее избыточной, хотя наименований населенных пунктов там в четыре раза больше. Я выбрал ОКАТО, поскольку нашел хотя бы какое-то описание базы на википедии, а в почтовых индексах присутствовала совсем непонятная информация. В этой базе предстояло отсеять ненужные административные единицы от требуемых мне географических.

    Отсев происходил в несколько этапов. Вначале я отобрал области, края и республики, т.е. верхний уровень иерархии. Затем взялся за города и поселки. Весь отсев проводился опытным путем. Выявляя закономерности, я отсеивал всю ненужную шелуху, типа муниципальных образований и районов крупных городов. Описывать закономерности не вижу смысла. Для каждого уровня классификации свои правила отсева административных единиц, которые можно посмотреть в исходном коде, в фале ниже. Отмечу что в итоговых файлах в регионах я создал идентификатор в первом поле, а в населенных пунктах ссылка на него в последнем поле, чтобы импортировать в БД принадлежность населенных пунктов к региону. Формат перевел в csv, в остальном формат данных остался прежним. Следует полагать, что в базе, скорее всего, есть ошибки. Если кто-то найдет, пишите в комментарии, буду править, ибо итоговое количество населенных пунктов вышло около 140 тысяч, а отследить их все крайне проблематично.
    Итак, файл кода на питоне, с помощью которого проводился отсев и разбор, и 2 итоговых файла после разбора c регионами и нас. пунктами можно скачать здесь. Надеюсь моя работа, окажется, еще кому нибудь полезной.

    Similar posts

    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 40

      0
      >Надеюсь моя работа, окажется, еще кому нибудь полезной.

        +2
        >Надеюсь моя работа, окажется, еще кому нибудь полезной.
        окажется и несомненно. ИМХО это немалый труд вы проделали. спасибо

        PS: за верхний пост сорри — хабр глючит
      • UFO just landed and posted this here
          +10
          А можно вопрос — чем не понравился КЛАДР?
            0
            Видимо, своей, как-бы это помягче сказать, дебильной структурой. Но вопрос поддерживаю: почему не сделать нечто удобоваримое из КЛАДРа?
            Хотя, тема избитая, на sql.ru несколько раз поднималась и обсуждалась.
              +1
              Ну в КЛАДРе из дебильного заметил только то, что нет дробления города по районам.
              В остальном все устраивает.
              • UFO just landed and posted this here
                  0
                  Ахахах.
                  Знали бы вы куда я его интегрировал. ]8-)
                    0
                    кто вам мешает дбфки кладра затянуть в БД своей структуры…
                      0
                      Ага. Я делал разбор на чистом pl/sql… =) Та еще задача.
                  +6
                  Самое удивительное, что я заметил в КЛАДРе, это:

                  Кто-нибудь знает, чем Чувашия заслужила такую честь? =)
                    0
                    а кожуун? Кемску волость-то немцам не отдали?
                      0
                      Видимо тем, что в Чувашии находится НИИ налоговиков и где делаются большинство ИТ поделий налоговой.
                        0
                        0
                        Вот, мы для нашего проекта делали и выложили доступный всем API КЛАДР www.magora.ru/info/kladr
                          0
                          по всем ссылкам-примерам — 404
                            0
                            К сожалению нам пришлось прекратить предоставление API
                              0
                              хоть бы базу дали скачать тогда…
                                0
                                А почему?
                          0
                          Я при поиске пару раз нарывался на него, но все из источников в которых говорилось что в нем очень много ошибок. И как то он сам собой отпал.
                            +1
                            Как знать, может быть используйся справочник ОКАТО так же часто как КЛАДР (а он, как минимум, используется в 1С), вы бы узнали о гораздо большем количестве ошибок в нем.
                              0
                              Справочником ОКАТО пользуется налоговая для распределения денег в бюджеты. В его вылизывании заинтересована куча чиновников на всех уровнях.
                                0
                                Т.е. в вылизывании КЛАДР, который делает налоговая (ГНИВЦ ФНС) для налоговой же (используется в АИС «Налог», например), налоговая не заинтересована?
                                  0
                                  Ошибки в КЛАДР приведут к тому, что адреса будут в документах неверно писаться. Это не так критично. А если в ОКАТО ошибочно какую-то улицу отнесут не к тому микрорайону, то деньги налогоплательщиков, там находящихся, будут поступать не в тот бюджет. Это тут же заметят чиновники на местах и быстро пнут налоговую, чтобы поправили базу и вернули деньги, куда положено.
                            +1
                            поддерживаю вопрос: кладр структурой сложен, но данными полон.
                              +1
                              Вот правда, никогда не мог понять, что сложного в структуре КЛАДРа? Она несколько идиотская, если смотреть с высот сегодняшнего дня, но чтобы сложная???
                            0
                            Проблема с кодировкой в csv файлах.

                            7-Zip 9.18 beta;
                            Excel 2003.

                            Спасибо за то, что делитесь своим трудом!
                              +4
                              Так как делал все в опенофисе кодировка UTF-8.
                              0
                              Интересно сколько из этих 140 тысяч отмечено в OpenStreetMap
                              0
                              А вы предусмотрели такой вариант — эти справочники достаточно часто обновляются например некоторые населенные пункты кочуют от одного субъекта к другому. Так что имхо самая сложная задача это обновление справочника и соответственно всех ваших сущностей привязанных к нему.
                                0
                                Там в архиве есть питоний код, с помощью которого я проводил отбор. Думаю им можно и в дальнейшем пользоваться, если формат не изменится. Только ему требуется файл ОКАТО конвертировать в csv.
                                +2
                                а есть ли в природе список субъектов которые потеряли статус жилых?
                                  +1
                                  А Вконтакте своя база, или они ее забирают откуда нибудь? Помню встречался с этой базой когда пробовал написать что нибудь на их конкурс разработчиков, там как раз была работа и индексирование такой базы.
                                    0
                                    Спасибо за работу, пригодится.
                                    Для того кому нужна база КЛАДРа в sql и лень самому морочится, только что импортировал свежую базу:
                                    narod.ru/disk/887406001/kladr.zip.html
                                    Если кому нужно в другом формате (csv например), пишите в ЛС, импортирую и выложу.
                                    +2
                                    Тоже когда-то составлял, уже и не вспомню, зачем. Города России с координатами и населением: promzona.org/utils/cities.html?sort=&page=all&dir=asc

                                    KMZ-файл для GoogleEarth: promzona.org/utils/russia2.kmz
                                      +1
                                        0
                                        Недавно приятель делал что-то подобное (мож тоже полезно будет):
                                        citiesdb.ru/
                                          +1
                                          Я взял КЛАДР, там оказлось множество несуществующих почтовых индексов и устаревших данных. Совместил КЛАДР с базой Почты России и получилось то, что на indexp.ru. Поскольку самому периодически нужно найти либо индекс, либо адрес, а искать это по КЛАДР и базе Почты России крайне нудобно.

                                          Only users with full accounts can post comments. Log in, please.