Pull to refresh

Comments 14

то можно

Но не нужно

  1. GUID не человекочитаемый, т.е. глядя на объект нельзя сказать верно там стоит или нет. В итоге это всё придёт в запустение и мусор, как уже не однократно было с другими кодами.

  2. Если вы сделали объединение автоматически, то это так же может сделать любой, кому такие данные нужны.

  3. Цель проекта получать фан, тотальный импорт не проверенных данных убивает его на корню, TIGER не даст соврать.

П.С. И да, восстановление полной иерархии у вас для ОСМ какое-то странное, не основано не геометрической вложенности, как это задумывалось.

У меня была задача дополнить данными из OSM и ПКК данные ГАР ФИАС (а именно - координатами GPS, которые там отсутствуют). Как следствие - получил оценочные данные о полноте OSM. Оказалось, что там около четверти от общего числа российских домов. Этой информацией и поделился. Если OSM не надо дополнять, то и не надо!

Но вы можете (а скорей всего и обязаны) поделиться своим готовым набором, наверняка это будет ещё кому-то интересно.

Не могли бы поправить понятие, приведённое в статье, "GPS-координаты". Такого термина или понятия не существует, так как GPS - система для получения данных о местоположении, а уж какую систему координат для этого будет применять пользователь, - систему не сильно волнует.

Чаще всего речь идёт о WGS, или ITRS/ITRF. А приведенные Вами в статье картографические сервисы могут использовать (и используют!) разные системы координат.

Да, наверное WGS. Та, которая используется в данных OSM. Она же используется и на Яндекс-картах. Например, центр Москвы в этой системе: (55.751696, 37.617064)

Не готов утверждать на 100%, но очень большое количество "зданий" в ГАР - это гаражи, которые вряд ли есть в OSM (их номера сложно идентифицировать на местности - да, может, оно никому и не нужно.

Правильно я понял, что предлагаете обогатить данные в OSM (и предоставить для публичного использования)?

Гаражи исключены из рассмотрения, как и устаревшие здания. Есть ещё немного экзотики типа шахт и пр., которая также игнорируется. То есть 32 млн - это именно актуальные здания в ГАР. Насчёт добавления в OSM - данные есть, но насколько это можно сделать автоматически и какие именно пригодятся - мне сложно судить.

Число я думаю завышено, и вот почему:
Знаю десятки улиц в городе, которые в фиас пронумерованы с 1 до 999, что естественно не соответствует действительности.
Было несколько проект по автоматическому распознаванию спутниковых снимков, т.е. включая всякие сараи и гаражи. В геоалерт пишут о 54 млн. Микрософт выложил 65 млн. Основная масса строений, мне кажется, должна быть в деревнях, а там на каждый жилой дом приходится по 3-4 сарая. Т.е. я бы оценил количество значимых адресов в районе 20+ млн.

Чтобы не иметь дело с огромными pbf-файлами

На Geofabrik есть нарезки по регионам https://download.geofabrik.de/russia.html

Исходно в OSM-данных (на момент сентября 2024) было около 9.2 млн зданий по России.

Вероятно, речь про здания с адресами https://taginfo.geofabrik.de/russia/keys/building#combinations

оставим только записи, у которых есть улица (A_STRT) и номер дома (A_HSNMBR)

Всё же иногда адрес может не содержать улицы. Например, Зеленоград и куча мелких сёл. Но вряд ли это сильно изменит цифры.

Фрагмент файла building-points.csv от NextGis

Правильно ли понимаю, что это полигоны и мультиполигоны, преобразованные в точку? Какие-то грустноватые числа по Питеру, уж не из-за дворов-колодцев, которые мультиполгонами рисуются? Из OSM можно достать 80к 50к зданий с указанными улицами и номерами https://overpass-turbo.eu/s/206P (запрос тяжёлый, может выполняться минуту)

p.s. Парсер адресов прикольный, но подкину пример: из «Зеленоград, к303, Москва» не достаёт корпус, но из «Москва, Зеленоград, к303» достаёт

А, так если это ваш SDK, то у меня для вас неприятные новости.

Вы конечно можете продавать ваш ГАР индекс, но так как это производная база данных от OpenStreetMap (никаких пробелов) и вы её распространяете среди третьих лиц, то вы обязаны её выложить под исходной лицензией ODbL. Тут конечно есть поле для выбора, это может быть не ваш бинарный формат, а csv, geojson или прости господи shape, но данные должны быть доступны.

Вторая проблема это атрибуция, не только вы должны указывать что вы использовали за данные и по какой лицензии, но и ваши пользователи при публикации своих материалов, если они извлекают большой объем данных OSM.

Резонно! Но есть нюанс - продаются не данные (ГАР-индекс), а код, который решает две задачи: (1) преобразует открытые ГАР-данные в проприетарный индекс, с которым производится работа (2) нормализатора адресов. Причём если индекс не использовать, то будет просто нормализация без привязки к ГАР. Сам преобразователь - это программа, и пользователь в любой момент может сам сгенерировать актуальный индекс.

OSM здесь - это дополнительная опция, если их данные указать преобразователю, то они будут использованы. В принципе, можно указать любые свои данные в csv-формате вида "Id гар объекта;GPS-координаты", и тогда они будут подтягиваться к атрибутам ГАР-объектов индекса.

К тому же для получения этого csv-файла я использовал не чистые данные OSM, а КУПИЛ выгрузку у компании NextGis, которая преобразует OSM-данные в удобоиспользуемый вид. Что-то они не сильно выкладывают в открытом доступе, потому что потратили усилия на это преобразование. А я потратил усилия на извлечение из их данных уже нужной информации с валидацией и привязкой к ГАР (12% так и не привязались).

Нюанс не в том, кто что продаёт, а в том происходит распространение данных OSM или нет. Я вижу, что на сайте есть 77 регион, значит есть и остальные и вы их предоставляете пользователям, а не они там что-то изготавливают сами. Тогда бы и проблемы не было, если каждый качал файл планеты и сам с ним что-то делал.

пользователь в любой момент может сам сгенерировать

Либо я в упор не вижу описание процесса и данные для его изготовления.

Либо вижу

Индекс для всей России входит в коммерческую версию SDK

То есть, есть факт распространения.

я использовал не чистые данные OSM, а КУПИЛ

Не имеет значения как и где - внутри OSM. Я вам про это и писал в комментарии, лицензия вирусная, вся цепочка подвержена лицензированию производных данных. NextGis-Вы-ВашиКлиенты.

Там где вы преобрели данные было написано

Лицензия данных ODbL. Подробнее о ваших правах и обязанностях можно почитать в Legal FAQ.

Что же до самого NextGis, то OSMF трактует так, что при тривиальных преобразованиям для соблюдения лицензии достаточно сослаться на исходных файл планеты, так как по сути они представляют одни и те же данные, просто в разных форматах. Но это не ваш случай.

Вы правы, некорректно сформулировано. На сайте переделал "Индекс для всей России входит в коммерческую версию SDK" на "Индекс для всей России и любого подмножества регионов можно получить из xml-файлов ГАР с помощью конвертера, который входит в коммерческую версию SDK.". 

Sign up to leave a comment.

Articles