Обновить
11
0
Екатерина@ekatsher

Системный аналитик

Отправить сообщение

А мне понравилась статья. Я ничего не знала о p-value до прочтения статьи, но благодаря статье поняла по крайней мере концепцию, что он значит и для чего можно использовать. Спасибо автору)

Спасибо за отзыв)
Рада, что статья пробудила интерес к теме :)
Рада, что смогли почерпнуть для себя что-то полезное)
Спасибо большое!
Какая-то часть данных у нас взята из OSM, и данные оттуда были взяты не всегда корректные.
Проблема в том, что у нас когда-то был создан справочник географических данных, на идентификаторы которых завязано огромное количество внешних систем. Нам нельзя просто убить этот справочник и забрать данные из OSM, нужно правильно сопоставить на существующие данные. Я делала это сопоставление для Казахстана после того, как наложение исходных данных на карту показало большое количество проблем. Но красивого алгоритмического решения не нашла, у OSM много нюансов в данных, пришлось около 30% обрабатывать вручную.
Может Вы можете посоветовать хороший эталон лучше карт? Критика — это хорошо, но ещё лучше предложить что-то взамен.
Задачу полноты я не решала. Решала изначально задачу определения качества существующих данных в БД: найти координаты и полигоны, несоостветствующие реальным населенным пунктам.
Чтобы решить задачу полноты нужен эталон (качественного эталона мы не нашли в свободном доступе) и его маппинг на наши данные, что весьма нетривиально.
Верефицировала данные визуально, нанеся их на карту. Гугл карта является эталоном, где можно увидеть, что наш «Киев» нарисовался поверх Кировограда.
Наличие полигонов не говорит об их правильности. Задача была каком-то образом понять, корректны ли они (соответствуют ли действительно тем названиям, что лежат в базе)
Соглашусь, что с помощью визуализации не получится достоверно верифицировать полноту, корректность, непротиворечивость данных, если говорить про абсолютные величины. Однако относительно «было-стало» визуалиция помогает. Выявлять пересечение полигонов, конечно, таким способом нет никакого смысла — это решается алгоритмически. Но как алгоритмом определить корректность? Скажем, в системе есть город Киев, у него есть координата центра и полигон, координата центра входит в полигон. Как убедиться, что расположение действительно соответствует Киеву, а не какому-нибудь другому городу? Или другой пример, в системе есть множество точек без полигонов, которые принадлежат согласно системе городам. Как убедиться, что эти координаты являются действительно городами, а не парками, улицами, районами города? Нанеся такие примеры на карту эти проблемы можно увидеть. Если есть идеи, как это сделать алгоритмически, с удовольствием выслушаю их, потому что, конечно, текущий способ полуручной. По факту нужен эталон данных, с которым можно бы было сравниться, но даже, если найти эталон, то встанет следующий вопрос — маппинг наших данных на эталонные.
Круто, что есть альтернативный способ решения, который я не нашла. Спасибо, что написал про это.
Про способ через QGIS не знала, при поиске вариантов решения на него не вышла, теперь ознакомлюсь. Статьи в том числе для того и пишутся, чтобы получить обратную связь и узнать что-то для себя новое.
Практически любая задача имеет несколько вариантов решения, ну и не у всех данные в Postgis.

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Работает в
Дата рождения
Зарегистрирована
Активность