Буду очень благодарен, если кто-нибудь подскажет, где можно взять подобную базу данных. Нужен список городов Земли (штук 10000-50000) с координатами, высотой и часовым поясом.
Сейчас пробую на свой сервер залить используя wget. Пока всё идет хорошо.
Если на сайте нет защиты от скачивания всего-всего, то к утру будет все населенные пункты России.
У меня же на сервере можно будет запустить парсер. Лишь бы скачалось...
Тоже сразу захотелось скачать - подумал, что главное - "не спугнуть" :) Как докачаете страницы - выложите где-нибудь исходники? А потом уж совместными усилиями распарсим.
Когда-то я качал данные для Америки и Европы (или только Германии, не помню). С каких-то других сайтов, но слово Gazetteer узнаю. Размеры огромные (ок. гигабайта), формат, мягко говоря, странный. Так ничего с этим и не сделал. Я к тому, что эти базы данных почти наверняка можно найти.
Давно ищу... Мне даже такие подробные не нужны. Самая большая проблема с часовым поясом. На данный момент у меня есть база координат 1300 городов по России (многие с численностью населения из недавней переписи, русские названия) и 4500 городов остального мира. Это всё собиралось из разных источников (парсилось). Готовую базу данных нигде не встречал.
Странные карты на этом сайте координат. Впечатление, что они создавались на основе карты начала прошлого века. Просто деревни и города до 50х годов там отмечены хоть как-то, а после не отмечены даже водохранилища. Сужу на основе своего города, которому уже 50 лет.
Есть такое. Для моего города там штук 10 вариантов названия, но все они объединены по координате и файл описания один, как и для Ижевска (Izhevsk.html).
Берется база GeoIP от MaxMind
по ней можно узнать имя города\регион и координаты.
А далее есть википедия.
Я в данный момент обьдиняю эти две базы, плюс КЛАДР и гугл.
Получается гдето 4.2 крупных обьектов на територии россии( в зоне дейсвия КЛАДР) и 4059 вики статей..
Для большинсва обьектов есть история, часовой пояс, население, в том числе и по национальностям.. блин да что же я расказываю - это же ВИКИ!
Сейчас все еше идет сведение таблиц, через недельку будет финал.
Будет актуально - выложу
MaxMind для России я бы не стал использовать... Неизвестно, откуда они это всё насобирали. По их данным город Нижний Новгород называется Novgorod и находится где-то рядом с Владивостоком.
Ваш БД очень интересна. Какая информация туда в итоге буедт входить? Будут ли названия на русском/английском?
Базу я собирал для проекта типа МирТесен.
Все на русском языке.
Названия МаксМинда уточнялись через КЛАДР, координаты через гугль-геокодинг.
(если точнее - плясало все от КЛАДРа)
Проблема в том что великого города Рыбинкс( там проживает отписавшийся тут Vass) в гугле НЕТ.
В Максе есть его координаты. В кладре - название.
Как информация будет входить...ммм
Иеархия адресов до улиц, вики инфо, координаты. Названия на русском, но только Россия
Через пару часов у меня закончится загрузка российских населенных пунктов. Смогу выложить архив. Поставлю на загрузку всё остальное.
Просьба ко всем заинтересованным лицам:
Пока ничего не мешает мне продолжать качать страницы сайта. Озадачтесь, пожалуйста, парсером. Структуру парсить не нужно, т.к. она получается довольно логичная: /world/{код_страны}/{номер_региона}/{название_населенного_пункта}.html
Отлично, давайте организуемся. Предлагаю такой принцип: выкачиваем страницы как есть (без картинок) и сохраняем их в сыром виде. Потом сливаем и распарсиваем.
Я сделал список стран, которые надо выкачать, прямо в виде команд wget. Размещен тут: http://www.plaxo.ru/fallingrain (plaxo тут не при чем - просто первое что подвернулось). Давайте там организовываться.
Geonames немного больше + там есть родные наименования объектов на различных языках.
И даже не знаю, зачем может понадобится столько объектов.
Сам добавил только WHERE `population` > 1000. Это >80000 точек :-)
Люди!
есть уже готовая база, с координатами и почти актуальным населением даже http://www.world-gazetteer.com/wg.php?x=…
Примечание по координатам: напирмер в гугл-мапс цифры вида 5079 надо преобразовывать в 50.79, то есть последние две всегда после запятой
Если нужна совсем полная и хорошая база с русскоязычными названиями, то придется объединять несколько баз. В базе geonames названия на нескольких языках указаны для небольшого количества объектов. Но никто не мешает приделать к ней русские/олбанские/кетайские названия по координатам...
В таблице названий на всяких-разных языках нашлось около 80000 имен в кириллице. Сколько из них относится к России не могу сказать. Но этого должно хватить для многих задач. Тем более, большего количества русских наименований я нигде не встречал. Так что в geonames уже всё приделано ))
GeoDataSource™ Cities Database Gold Edition (та которая стоит на сайте $1000+)
Сразу предупреждаю: база краденная и соответственно пиратская ну и т.д. и т.п.
Хорошая штука, но база от geonames.org лучше в некоторых мелочах. Например, у geonames есть информация о переходе на летнее время. И русскоязычных названий гораздо больше. Есть корректная информация о численности населения. Суммарный объем данных 750 Мб.
Да, я имел ввиду распакованный размер файла со всеми населенными пунктами (allCountries.txt). Без альтернативных языков. Они еще на 80Mb потянут (alternateNames.txt).
Да, списки хорошие, но, к сожалению? в них используется какая-то мутная нестандартная транслитерация и неизвестно вообще есть ли в ней твёрдое правило. Так что под сомнением то, можно ли это использовать в публичном проекте.
Я-то было уже транслитератор сделал, который по госту работает, а тут такая лажа. Кто-нибудь продвинулся в этом вопросе?
Географические координаты всех городов на Земле