Как стать автором
Обновить

Цифровой урбанизм в России: где брать данные для своего проекта по анализу городской среды

Время на прочтение18 мин
Количество просмотров11K

На Хабре время от времени появляются статьи про различные веб-сервисы и приложения, так или иначе анализирующие городскую среду. Такие сервисы, по задумке авторов, должны помогать жителям принимать какие-то решения - куда пойти, где купить жилье, где комфортнее жить и гулять. Из последних примеров:

Типичная идея таких сервисов - "а давайте возьмем городские данные, засунем в какой-нибудь ML алгоритм, что-то подсчитаем и красиво нарисуем на карте".

Часто все выглядит именно так - берем OpenStreetMap и пытаемся что-то с ним делать
Часто все выглядит именно так - берем OpenStreetMap и пытаемся что-то с ним делать

Однако результат часто оказывается "пальцем в небо". В комментариях же пользователи начинают просить добавить все новые и новые фичи и факторы, влияющие на качество среды. Как правило упоминают общественный транспорт, экологию, освещение улиц, плотность коммерческих объектов, загруженность социальной инфраструктуры. На что авторам приходится растерянно разводить руками и отвечать, что "ну если вы нам данные дадите, то мы их прикрутим". А данных-то и нет. И самый лучший алгоритм тут не поможет, если ему не дать качественные данные для работы.

Лицензии и доступность данных

Сразу стоит понять, для каких целей вы делаете свой сервис. Как правило, их делают либо с научно-просветительской целью, либо с коммерческой.

В первом случае вы решаете какую-то интересную задачку на анализ данных, и просто делитесь результатами с сообществом, бесплатно и открыто. Во втором случае вы планируете в будущем как-либо монетизировать свой сервис.

Многие корпорации, владеющие полезной для вас информацией, запрещают ее использование в коммерческих целях. При этом на научные публикации и исследования как-то закрывают глаза, но вот мимо коммерческого проекта, который делает деньги на их информации, они вряд ли пройдут.

Вот пример из соглашения на использование API TripAdvisor. В нем сказано, что вы не должны никак кешировать и сохранять данные от их API для создания своей собственной базы данных коммерческих организаций:

То есть, например, вы не имеете права скачивать из TA информацию о кафе и ресторанах, чтобы затем встроить ее в свой алгоритм подсчета притягательности территории для туристов. Информация вся есть, вот она, гигабайты ее. Но использовать ее нельзя по сути ни для чего, кроме как для простого отображения меток на карте.

Аналогичные ограничения есть практически у всех крупных сайтов, посвященных коммерческим объектам.

Поэтому внимательно изучайте лицензионные соглашения тех сервисов, данные с которых вы хотите использовать, иначе можете нарваться на неприятности.

В итоге по доступности информацию можно условно разделить на:

  • Общедоступные открытые данные - то что легко технически доступно (через API или можно просто скачать датасет себе), при этом вы имеете право это свободно использовать, в том числе в коммерческих целях.

  • Условно-доступные данные - то что технически скачать можно (спарсить с сайта, использовать торчащее наружу приватное API), но использовать можно либо с ограничениями, либо вообще формально нельзя, но тут может сработать принцип неуловимого Джо.

  • Закрытые данные - данные, которых нет в интернете, но их можно получить через соответствующие связи, либо купить.

Ниже я приведу список того, с чем сталкивался и работал лично в своих различных проектах в Институте дизайна и урбанистики ИТМО. Список не исчерпывающий, возможно в комментариях кто-то сможет дополнить, особенно в разделе про закрытые данные.


Общедоступные открытые данные

Карты

Для любой ГИС обычно нужна какая-то карта. Как в смысле картографической подложки, поверх которой можно рисовать какие-то свои данные, так и в смысле источника этих данных - координат и геометрии дорог, домов, рек, озер, лесов и прочих объектов.

Выбор подложек велик - тут и Яндекс, и Гугл, и OSM, и Here Maps, и MapBox и куча всего еще. Выбирают обычно чисто из эстетических соображений + полноты данных в том регионе, что вам нужен. Но есть некоторые подводные камни:

  • Выбор подложки зачастую привязывает вас к экосистеме этого провайдера, так как у многих провайдеров (Яндекс, Гугл, Here) есть ограничения на другие виды данных, что отображать их можно только на их же подложке. То есть если вы хотите использовать геокодер Яндекса - вы без вариантов должны использовать и картографическую подложку Яндекса.

  • У того же Яндекса есть ограничения на бесплатное использование - только для открытых проектов. Если в вашем проекте сложная закрытая регистрация или платный функционал - вы обязаны купить у них лицензию, бесплатно их сервисами пользоваться нельзя. Возможно что-то аналогичное есть и у других, надо изучать.

OpenStreetMap

Великий и ужасный OpenStreetMap - Википедия в мире карт, проект наполняемый самими участниками - по сути является единственным открытым источником картографических данных (а не только растровых изображений). Если вам нужны не картинки, а сами координаты домов, улиц и прочих объектов - вам сюда.

Вы можете скачать дамп целого региона или планеты в архиве, либо получать нужную вам область в виде API

Главный плюс OSM - там есть данные, которых больше нет нигде, и достаточно открытая лицензия.

Точки, линии, полигоны, отношения и теги - все есть, все можно скачать
Точки, линии, полигоны, отношения и теги - все есть, все можно скачать

Главный минус - детализация очень сильно плавает от города к городу. Где-то (где видимо нашелся маппер-энтузиаст) качество OSM бьет всех конкурентов, там будет размечено вообще все, вплоть до мусорных урн и отдельных деревьев. А где-то не будет ничего кроме пары главных улиц, кое-как перерисованных со спутника.

Есть еще ряд подводных камней, с которыми вы столкнетесь работая с OSM, и которые надо иметь в виду:

  • Ограничения на доступ и нагрузку. OSM - бесплатный проект от сообщества, поддерживаемый на пожертвования и живущий на энтузиазме. И они очень плохо относятся к тем, кто злоупотребляет халявой и создает излишнюю нагрузку на их API. Попытка выкачивать большие регионы или запрашивать очень много тайлов легко может привести к бану. На все претензии ответ будет один - "поднимайте свой инстанс и делайте с ним что хотите, а общественный бесплатный не насилуйте".
    Сюда же идут сложности с оффлайн-использованием. Если вы захотите сделать приложение с возможностью качать карты в оффлайн, вам придется скорее всего поднимать свой сервер. Так как выкачать все тайлы для всех уровней зума даже для небольшой территории - это очень много запросов.

  • Плохой геокодер. Честно, Nominatim - полная фигня. Отчасти это связано с плохой наполненностью базы адресами (впрочем опять же, зависит от города), но он и сам по себе просто тупой. После Яндекса пользоваться им невозможно, тупит и не угадывает, срабатывает только если идеально точно прописать адрес. Плюс еще и не больше одного запроса в секунду, иначе банит.

  • Вы никогда заранее не будете знать, насколько хороши данные OSM в нужном вам регионе (если только сами там не живете и не можете глазами сравнить карту и реальность). Пользователи будут постоянно вас ругать за то, что ваш сервис не учитывает вот этот дом и вот этот парк, а их на карте просто не разметили.

  • Многообразие способов описания одного и того же. Например, зеленая область на карте может быть отмечена и как лужайка, и как парк, и как лес (да, не удивляйтесь если у вас будет лес в центре города) и как огород и как черт знает что еще. Вы будете постоянно сталкиваться с тем, что ваши выбранные теги не включают в себя какие-то важные частные случаи, и вам придется их дополнять.

    На этом участке карты есть четыре разных вида разметки зелени
    На этом участке карты есть четыре разных вида разметки зелени
  • Данные бывают устаревшими. Опять же, все зависит от энтузиазма мапперов. По ощущениям, наиболее устаревшие данные - это коммерческие точки (кафе-магазины), на них в OSM полагаться нельзя вообще. Так как заведения открываются-закрываются часто, а править их всем лень, это не такая интересная работа, как разметка больших участков карты, дорог и кварталов.

    Этот Суши-Шоп закрылся уже больше года назад. При этом рядом с тех пор открылось еще 2-3 заведения, которых на карте нет
    Этот Суши-Шоп закрылся уже больше года назад. При этом рядом с тех пор открылось еще 2-3 заведения, которых на карте нет
  • Нет вообще никаких общих конвенций по маппингу. Зачастую в одном регионе местным сообществом принято одно, а в соседнем такие же объекты будут маппиться совсем иначе. Например, где-то встречал срач, что в Питере есть какие-то мапперы, которые принципиально рисуют все проспекты двумя отдельными односторонними линиями, и откатывают правки тех, кто с ними не согласен (рисует улицу одной двухсторонней линией). И фиг с ними что сделаешь.

  • Фундаментальная проблема любых карт (не только OSM), недавно поднятая, например, в комментариях к этому посту. Люди жалуются, что Яндекс их ведет по каким-то разбитым дорогам, вместо хороших новых улиц.
    Проблема в том, что в картах довольно ограниченное количество вариантов отображения объектов. И для тех же дорог есть дай бог штук 10 различных вариантов (в OSM это всякие теги primary-secondary-service-residential и еще ряд других), которые просто никак не могут покрыть все разнообразие всех возможных видов покрытия и состояния проезжей части.
    Более того, типы обычно назначаются согласно юридическому статусу дороги, а не ее физическому состоянию
    Вот пример двух улиц, обе имеют тег highway=residential, то есть местная улица в жилой застройке. Первая - асфальт, освещение, четыре полосы, карманы для автобусов. Вторая - какая-то разбитая грунтовка на задворках.

    Ну и как ваш бедный A* в навигаторе должен отличить одно от другого и понять, по какой из них вас надо вести? Да, иногда какие-то выводы можно сделать по дополнительным тегам (числу полос, покрытию, наличию освещенности), но они есть далеко не всегда и не везде. Можно придумывать всякие эвристики, типа "если на дороге есть маршрут ОТ - эта дорога предпочтительнее", но любые эвристики могут ошибиться.
    И попробуйте потом все эти сложности объяснить разозленным пользователям, у которых на проложенном вами маршруте колесо в яме оторвало.

Несмотря на все свои недостатки, OSM - потрясающий проект, не имеющий аналогов, и как правило служит базой для всех урбанистически-картографических исследований.

Важный бонус - работая с OSM вы получаете сразу огромный набор готовых инструментов по хранению, обработке данных, навигации, отображению и т.п. Например, для Java есть Graphopper - готовый набор из сервера и библиотеки для поиска путей, который из коробки умеет читать OSM-ные дампы и строить по ним быструю навигацию.

Вы всегда сможете ответить на все претензии пользователей в духе: "хотите что-то добавить - нарисуйте в OSM, заодно поможете всем другим проектам и навигаторам, которые его используют".

Рельеф

Данные о рельефе вам могут понадобиться для указания высот на маршруте, или для моделирования распространения каких-нибудь радиосигналов, или зон видимости.

Если вы просто хотите отображать подложку с рельефом - вам подойдет OpenTopoMap

Гора Бештау под Пятигорском выглядит в OpenTopoMap вот так
Гора Бештау под Пятигорском выглядит в OpenTopoMap вот так

Если вам надо получать высоты в заданной точке через API - можно воспользоваться, например https://www.opentopodata.org. Есть как публичное бесплатное API с ограничением на частоту запросов, так и возможность развернуть собственную копию.

Используется модель, построенная по данным дистанционного зондирования, с шагом сетки в несколько десятков метров. Вроде у автора есть более точная модель, но она уже платная.

Важный факт - спутник считает расстояние до ближайшего твердого объекта, а не до поверхности земли, поэтому в городе высота вполне может оказаться высотой крыши ближайшего здания.

Геокодирование

Прямое и обратное геокодирование - это связь между адресом и координатами. Во многих проектах требуется либо одно (получить координаты по адресу, например чтобы проложить маршрут), либо другое (получить адрес по координатам, чтобы отобразить пользователю в интерфейсе).

Каждый исследователь, которому понадобится такой функционал, столкнется с проблемой: какой из доступных сервисов выбрать?

  • Сервисы от гигантов рынка - Яндекс, Гугл, Here Maps и пр. Работают хорошо, умеют "додумывать за пользователя", угадывают неточно введенные адреса.
    Главных минусов для исследователя три:

    • Платность - хотят денег, иногда имеют бесплатный план, но с ограничениями, часто бесплатного плана просто нет

    • Привязка к карте. Требуют чтобы их результаты отображались только на их же карте. Нельзя, например, результаты геокодера Яндекса показать поверх OSM подложки.

    • Нельзя сохранять данные. Иногда делается исключение для возможности кеширования, но сохранить данные, чтобы потом по ним прогнать какой-то алгоритм, формально все равно нельзя.

      Из условий использования API Яндекс-карт, у остальных компаний правила схожие
      Из условий использования API Яндекс-карт, у остальных компаний правила схожие
  • Геокодер OSM - Nominatim. Бесплатно и сердито. Выше уже написал минусы, повторюсь:

    • Не умеет искать неточные совпадения (а фиг вам пользователи будут правильно всегда вводить).

    • Плохая база адресов (зависит от местности).

    • Жесткие лимиты на 1 запрос в секунду с последующим быстрым баном при нарушении.

  • Прочие сервисы, десятки их по запросу "geocoding api". Мне пока из опробованных больше всего понравился https://www.geoapify.com - они практически единственные, кто сумел найти мой дом по адресу, и при этом не имеют ограничения на сохранение данных и отображение на любых подложках. В свое время я даже в это не поверил и отдельно у них письмом это спросил, они подтвердили, что лицензионных ограничений нет. Вроде работают в основном поверх OSM, но имеют и еще какие-то другие источники данных.

Данные о ДТП

Их вполне официально отдает ГИБДД, но в неудобном формате. В удобном формате можно получить через замечательный проект Карта ДТП

Такие данные можно использовать для определения безопасности улиц, правда и тут не без подводных камней, перечеркивающих многие идеи для исследований. Например, некоторые категории редко проставляются в протоколах. Мы пробовали сделать исследование безопасности трамвайных остановок, сравнить количество наездов на пешеходов возле остановок с платформами и без (где пешеходы высаживаются сразу под колеса машин). Но, к сожалению, хоть такая причина ДТП (наезд на пассажира трамвая) там и есть, но встречается она очень редко. Большинство ДТП пишутся под общими категориями типа "наезд на пешехода", и попробуй отличи.

Также есть проблемы с координатами, подробнее в статье от авторов по ссылке выше.

Открытые данные местной администрации

В разных регионах разный уровень цифровизации. Где-то вполне можно найти открытые данные различной тематики, выложенные в интернете для всеобщего доступа. Главная проблема тут - что (почти) нет никаких единых стандартов. Каждый регион сам решает, что выкладывать и в каком формате. Зачастую у каждого региона есть своя информационная система обеспечения градостроительной деятельности, где можно посмотреть различные геослои, и иногда даже скачать их.

У СПб есть РГИС, в котором есть много чего полезного:

Аналоги для других регионов ищутся по запросу "ИСОГД %регионнейм%". Вообще сейчас идет мощный тренд на цифровизацию, в ближайшие годы все регионы заставят (кто еще не успел) создать такие системы и полностью перейти на цифровые документы территориального планирования.

Также можно походить по сайтам городских комитетов/департаментов/как еще они там будут называться в вашем регионе, и поискать разделы "открытые данные". Мы, например, используем данные от Комитета по градостроительству и архитектуре, чтобы оповещать градозащитников и экспертов о возможной будущей застройке. В КГА недавно создали реестр открытых данных, и сейчас расширяют его и дополняют новыми документами.

Про стандартизацию всего этого дела - есть, например, 10 приказ Минэкономразвития, там перечислены требования к геослоям генеральных планов, чтобы одни и те же объекты единообразно обозначались и отображались (вот тут я писал, как в джаве научиться рисовать объекты на карте согласно этому приказу). Это шаг в правильном направлении, но все равно остается куча видов градостроительных документов, где каждый регион будет изобретать свой велосипед в обозначениях и форматах.


Условно-доступные данные

Это, повторюсь, либо данные, скачиваемые через всякие хаки и торчащие наружу непубличные API с непонятным правовым статусом, либо данные, на которые явно наложены лицензионные ограничения. Используйте на свой страх и риск.

Данные о населении

Одним из краеугольных камней любых расчетов обеспеченности инфраструктурой являются данные о населении. Без них вы не сможете только лишь по карте понять, достаточно ли школ/поликлиник/детских садов или нет. Ну или сможете сделать только грубые прикидки по радиусам доступности, которые в наших реалиях (перенаселенные окраины городов с одной школой на 30 тысяч населения) вам мало что скажут.

К сожалению, из публично доступных данных такого рода мне попадалась только методика подсчета через данные ЦИК. Там на сайте можно найти перечень квартир во всех домах, в которых зарегистрированы избиратели. Начните вводить адрес и подсмотрите в веб-отладчике запросы к АПИ, которые он шлет, там иерархическая структура, от субъектов РФ и вплоть до отдельного дома и квартир в нем. Сами запросы тут приводить не буду, они время от времени меняются, так как это не публичное апи. Но отреверсить его и написать простой скрипт для скачивания всей структуры проблем быть не должно.

В итоге можно получить количество квартир в данном районе, после чего умножить на среднее количество жителей в квартире (где его взять - отдельный вопрос, я встречал цифры от 1.5 до 2-3) и получить какую-то грубую оценку численности населения.

Для некоторых регионов можно найти какую-то информацию на сайтах местных статистических ведомств. Вот, например, данные от Петростата за 2021 год - население с точностью до муниципалитета в СПб. Более точных данных по Питеру похоже ни у кого нет, во всяком случае публично.

Коммерческие заведения

Могут быть важны как с точки зрения инфраструктуры (чтобы рядом магазины были), так и с точки зрения оценки популярности каких-то точек в городе (больше кафе на крупных популярных улицах).

Какую-то информацию можно выцепить из:

  • OSM - как выше упоминалось, очень плохо с актуальностью, лучше не использовать

  • TripAdvisor - есть API, но формально нельзя обрабатывать и хранить

  • Google Places API - можно получать информацию о заведениях, отображаемых на карте гугла. Ограничения те же самые, что и у прочих сервисов - нельзя сохранять результаты, рисовать можно только на картах самого гугла.

  • Аналог от Яндекса, с аналогичными же ограничениями (не сохранять, только карта Яндекса), плюс еще лимит в 500 запросов в день, видимо чтобы не пытались вытянуть у них всю базу

Кадастровые участки

Росреестр ведет публичную кадастровую карту, но уже много лет сопротивляется всем попыткам сделать ее по-настоящему открытой и дать возможность пользователям получать координаты участков. Сейчас по факту можно только получить растровые картинки. Раньше был лайфхак: так как у них там ArcGIS используется, можно было подхимичить с параметрами запроса и получить участки в векторном SVG. Потом эту лазейку прикрыли, получить можно только PNG/JPG.

Кусочек кадастровой карты
Кусочек кадастровой карты

Сейчас можно вытащить оттуда растры по номеру участка, и путем нескольких преобразований (перевести в нужную систему координат, обвести границу полигоном) получить приблизительную (с погрешностью на растеризацию) форму участка.

Кажется, недавно видел про это статью на хабре про это, но сейчас не могу ее найти. На гитхабе есть вроде такой репозиторий, но я не знаю, жив ли он. Впрочем, Росреестр уже несколько раз менял апи кадастровой карты за последние пару лет, так что все готовые решения быстро устаревают и ломаются. Но написать с нуля свое - вопрос пары дней.

Плюс через API можно вытащить разрешенные виды использования участка, что важно для различных проверок и рекомендаций в области градостроительства.

Общественный транспорт

Тут тоже все так себе, кто в лес, кто по дрова. Данные об ОТ можно брать из:

  • Опять-таки OSM. Маршруты там есть. Реалтайм данных, разумеется, нет. Актуальность маршрутов... ну как и всего там - вызывает сомнения.

  • Гугл и Яндекс - тут особо не вчитывался, но вангую что ограничения те же, что и везде, показывать можно, хранить и обрабатывать нельзя.

  • Отдельные сайты и приложения у отдельных городов. Работоспособность, удобство и полнота данных сильно зависят от города. Как правило, каждый город пилит что-то свое.
    Есть попытка стандартизации через формат GTFS, именно через него работает Гугл, через него же можно получить реалтайм данные и расписание в СПб. Про другие города надо смотреть.
    Вот в Воронеже можно попотрошить АПИ их сайта с отображением транспорта, например https://vrnbus.herokuapp.com/map.html?bus_query=

В целом единообразного способа получения информации об ОТ даже в масштабах России не существует.

Парсинг соцсетей

Из постов в социальных сетях можно извлекать различную информацию, привязанную к местоположению. Из того, о чем я слышал:

  • Поиск туристических локаций - где больше фоточек люди делают, там наверное больше интересных объектов.

  • Сбор мнений и мониторинг настроений - можно пытаться искать какие-то конфликтные точки на карте города по негативным пользовательским комментариям.

  • Поиск отзывов на какие-то заведения или локации.

При этом есть ряд подводных камней:

  • Данные сильно зашумлены, надо уметь их разделять. Например, много фоточек люди делают и постят в аэропортах на прощание перед вылетом, но это не значит, что аэропорт это хорошая туристическая достопримечательность.

  • Смешаны данные от разных категорий людей - местных жителей, приезжих, туристов, просто проезжавших мимо. В итоге вы можете набрать лишних данных, нерелевантных для вашей ЦА.

  • Любая попытка что-то извлекать из текстов постов - это уже NLP задача, требующая соответствующих компетенций. Это не так-то просто, и часто выходит за рамки возможностей урбанистов-дата-сайнтистов. Поэтому нет смысла предлагать авторам небольших проектов "да что там, стащите все отзывы из вэкашечки и из местных сообществ".

  • Ну и как правило все это так или иначе нарушает правила пользования и лицензионные соглашения соцсетей

    Выдержка из пользовательского соглашения ВК, из раздела запретов
    Выдержка из пользовательского соглашения ВК, из раздела запретов

Закрытые данные

Это те данные, которые вы вряд ли сможете получить самостоятельно, либо они стоят слишком дорого для хобби-проекта. Но они тоже есть и могут использоваться для исследований и проектов крупными компаниями.

У нас в ИТМО довольно много связей с чиновниками различных регионов, благодаря чему мы иногда получаем доступ к такой информации. Хотя, надо понимать, это тоже не панацея, часто "секретные" государственные данные, на основании которых принимаются важные градостроительные решения - такое же черт знает как собранное и давно устаревшее фуфло, не выдерживающее пристального внимания и проверки.

Но в целом, конечно, доступ к такой информации позволяет заниматься чуть более интересным анализом, чем это доступно человеку с улицы.

Видов закрытых платных данных много, опишу только то, с чем сталкивался сам.

Социальная инфраструктура и население

В КГА наши студенты проходили практику и там они смогли получить данные об реальной численности учеников в школах, об их проектной мощности и реальной загруженности. На основании этих данных сделан https://schools.yourmaps.io.

Вот такие пироги в моем районе, данные неполные (нет кучи домов), но видно что заполненность школы 180% от расчетной
Вот такие пироги в моем районе, данные неполные (нет кучи домов), но видно что заполненность школы 180% от расчетной

Население по данным переписи (хотя бы с точностью до числа жителей в отдельном доме) вроде можно получить, но то что есть у нас - очень устаревшее (из нулевых годов).

Доступ к видеонаблюдению

В Питере есть программа "Безопасный город" - город методично обвешивают камерами, видео с них можно официально запросить в случае какой-нибудь неприятности.

Для исследователей же иногда есть возможность получить доступ к отдельным камерам и изучать что-то по видеопотоку. Мы один раз использовали это для анализа стихийной тропы на Марсовом поле (считали по видео пешеходов, шедших по газону).

Вид с камеры на столбе
Вид с камеры на столбе

Коллеги-транспортники из другой лаборатории вроде бы используют видео для анализа автомобильного траффика на ключевых перекрестках и настройки своей транспортной модели.

Данные мобильных операторов

С этим напрямую не работал, но знаю что такие обезличенные данные вполне официально можно купить. Цены там немаленькие, для отдельного исследователя или небольшого проекта неподъемные. Зато можно получить реальные маршруты жителей в городе. Очень важно для любых задач транспортной корреспонденции.

Коммерческие предприятия от 2gis

Если у вас серьезное исследование или проект, требующий детальной информации о коммерческих компаниях, вам придется эти данные купить. Но стоят они немало.

Вот пример расчета с сайта 2gis (многие говорят, что у них база наиболее актуальная) по Санкт-Петербургу. Это причем еще без контактов, с ними будет еще в два раза дороже.

Чего найти не удалось

Эти данные были бы полезны во многих исследованиях и проектах, и они часто всплывают тут на Хабре в комментариях и обсуждениях. Но в открытом доступе их нет, во всяком случае для РФ. Ну или мне не удалось найти, если в комментариях поправят - буду рад.

  • Данные о чистоте воздуха. Все что есть - либо крупномасштабное (пара цифр на город), либо это какая-то модель-надстройка над OSM (в духе "вдоль шумных улиц и фабрик плохая зона, вдоль парков хорошая"), со всеми его недостатками в виде проблем с покрытием или погрешностями в тегировании улиц.

  • Данные о городской растительности. В том же OSM кое-где прям отдельные деревья размечены, но в большинстве городов такого нет.

  • Данные о доступности для маломобильных граждан, велосипедистов и прочих колесных. В итоге почти все велосипедные навигаторы показывают фигню, заводя туда, где через каждые пять метров по поребрику.
    Есть исследования, где по панорамам Google Street View эту самую доступность распознают методами компьютерного зрения, но готовых к использованию данных я не находил.

  • Данные о пешеходной инфраструктуре. В OSM за пределами Питера и Москвы банально тротуары и пешеходные переходы мало где размечены. В государственных ГИС тоже зачастую не хватает всяких дорожек-тротуаров.
    В итоге качество именно пешеходной навигации сильно страдает, а исследования на эту тему (наподобие моего анализа "пешеходных кривулей", мест где слишком велико расстояние между пешеходными переходами) оказываются очень неточными.

  • Спутниковые снимки. Если вам нужна бесплатная открытая карта - есть OSM. А вот если вы захотите добавить спутниковую подложку в свой коммерческий проект - то фиг вам. Яндекс вот даже за деньги не дает доступ к своим спутниковым снимкам из-за каких-то лицензионных сложностей.
    Есть какие-то публичные архивы, но там качество снимков очень плохое и они старые обычно. Использовать их для актуального картографического приложения не получится.
    Ситуация понятная - если карту волонтеры могут нарисовать в качестве хобби и бесплатно, со спутниковыми снимками (особенно высокого качестве, пригодными для картографической подложки) так не выйдет, это всегда коммерческий продукт. Но обидно.

Монетизация

После того, как вы создали какое-то приложение с картой и какими-то данными на ней, может возникнуть желание на нем заработать.

Очевидным методом монетизации для приложения с картой может показаться путь Гугла/Яндекса - отображение маркеров коммерческих заведений с комиссией за клик.

Однако оказывается, что просто не существует (опять же, поправьте если я ошибаюсь) никаких рекламных сетей, предоставляющих такую функциональность. Чтобы можно было по API получить у них список объектов на карте в заданной области, и потом получить комиссию за клик пользователя. Вообще, как мне кажется, интересная идея для стартапа в этой области - рекламная сеть для отображения объектов на карте.

Существующие API для получения коммерческих объектов, перечисленные в разделе про открытые данные выше, не дают вам лично никакого профита. Все деньги за клики по ним получит их хозяин (гугл или TA).

У TripAdvisor есть партнерская программа, но там все сложно - вы получите деньги, если человек перейдет по вашей ссылке на TA, а там забронирует отель или еще что-то (не обязательно то, на что вела ваша ссылка).

Вообще похоже, что вся туристическая интернет-отрасль монетизируется исключительно бронированием билетов (партнерки у всех крупных сайтов типа aviasales или tutu), туров (тут самый популярный это travelpayouts, это вообще крупный агрегатор партнерок в сфере туризма) и отелей (всем известный букинг и аналоги). Если ваш проект никак с этими сферами не связан, то и заработать нативным образом на вашей карте вы не сможете. Придется использовать обычные методы монетизации (платные фичи, рекламные баннеры), не специфичные конкретно для картографических и навигационных приложений и не использующие их возможности.


Заключение

Надеюсь, эта статья поможет как будущим авторам ГИС и урбанистических веб-сервисов - не лезть туда, где все равно ничего не выйдет из-за недостатка данных, так и пользователям - понять, почему все работает не идеально, а сделать лучше в текущей ситуации не получится.

Вкратце просуммирую основные проблемы, которые вы должны понять и проверить, прежде чем начать разработку своей идеи:

  • Самый лучший алгоритм не сработает, если нет достаточно точных данных. Подход "ай ладно, ща запилим алгоритм, а данные потом поищем" не работает, без данных ценность вашего алгоритма для пользователей равна нулю, или даже отрицательна (если он дает ошибочные рекомендации).

  • OSM это здорово, но есть проблемы с качеством и полнотой, некоторые категории данных (коммерческие заведения, транспорт, озеленение) там формально есть, но в большинстве случаев непригодны для серьезного использования.

  • Некоторые вроде бы очевидные и нужные данные взять просто неоткуда.

  • Очень много данных закрыто лицензионными ограничениями, пользоваться ими можно только по методу Неуловимого Джо - надеяться, что вас не заметят и не засудят.

  • Если поискать - можно найти много интересных данных от чиновников и местных администраций, но нет общих стандартов, везде все по-разному, в итоге очень сложно или вообще нереально сделать решение, работающее для всей территории РФ.

Напоследок могу порекомендовать чат в телеграме по открытым данным в РФ - https://t.me/opendatarussiachat. Сразу скажу, что вопросы типа "где взять кадастровые участки" там уже являются платиновыми, и в ответ вы разве что горький смех получите, но какие-то менее тривиальные вещи там можно найти и узнать.

Если у вас есть опыт работы с этими или любыми другими открытыми данными, пригодными для анализа городских территорий - пишите в комментариях. Тема нынче востребованная и наверняка эта информация многим окажется полезной.

Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
Всего голосов 22: ↑22 и ↓0+22
Комментарии57

Публикации