Комментарии 8
Даже не читал еще статью, но с точки зрения маркетинга и качества превью - гениально.
Если что-то выглядит странно, данные помечаются статусом «на ручной разбор»
Не исключаю что я что-то невнимательно прочитал, но когда я реально пользовался Фактором для разбора миллионов адресов (несколько лет назад), именно вот эта часть была самой слабой. Потому что такого статуса недостаточно. Нужно максимально четкое пояснение, что именно пошло не так. Ну т.е. имеет место неоднозначность? Какая конкретно? Дублирование? Где? Ну т.е. на примере:
Москва, Курчатова, 12, 25
Есть улица и площадь Курчатова? А дом 12 есть и там и там? Дело в том, что тот кто будет разбирать это вручную - он ведь этого не знает, и полезет в справочник, и будет тратить время, вероятно много. При этом алгоритм парсинга адреса уже этим справочником обладает, и мог бы показать варианты, что такое Курчатова, 12, и в каком из этих домов есть квартира 25, а в каком нет. При этом есть реальные случаи использования, когда адреса и в таком виде могут быть обработаны, если на дальнейшем этапе обработки мы понимаем, какого именно сорта неоднозначности обнаружены. И да, я прекрасно понимаю, что если адрес записан неверно, то и токены 12, 25 тоже могут содержать ошибки :), и эта задача может быть неразрешимой.
Добрый день! спасибо, действительно, нам есть, куда развивать адреса в помощь операторам, которые разбирают негарантированные данные.
Сейчас для Москва Курчатова 12 25 отдадим основной результат с улицей, подсветим, что дома 12 на ней нет, что восстановили типы дома, улицы и региона, а площадь Курчатова отдадим в вариантах. Но аналитику по варианту с площадью не предоставим.
На наличие квартиры сейчас совсем не обращаем внимание, пока еще нет уверенности в полноте справочника в части квартир и помещений. К тому же в данный момент при добавлении новых фич мы тщательно взвешиваем пользу и влияние на скорость алгоритма.
В будущем хотим отдавать больше маркеров качества и добавить возможность показывать варианты разбора домовой части. Чтобы можно было подсветить, что 12-1 это может быть дом-квартира, дом-корпус или строение-помещение и какие из вариантов есть в справочнике.
Гадя сделала статью xD
Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах