Как стать автором
Поиск
Написать публикацию
Обновить

Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах

Время на прочтение14 мин
Количество просмотров2K
Всего голосов 16: ↑15 и ↓1+19
Комментарии8

Комментарии 8

Даже не читал еще статью, но с точки зрения маркетинга и качества превью - гениально.

Если что-то выглядит странно, данные помечаются статусом «на ручной разбор»

Не исключаю что я что-то невнимательно прочитал, но когда я реально пользовался Фактором для разбора миллионов адресов (несколько лет назад), именно вот эта часть была самой слабой. Потому что такого статуса недостаточно. Нужно максимально четкое пояснение, что именно пошло не так. Ну т.е. имеет место неоднозначность? Какая конкретно? Дублирование? Где? Ну т.е. на примере:

Москва, Курчатова, 12, 25

Есть улица и площадь Курчатова? А дом 12 есть и там и там? Дело в том, что тот кто будет разбирать это вручную - он ведь этого не знает, и полезет в справочник, и будет тратить время, вероятно много. При этом алгоритм парсинга адреса уже этим справочником обладает, и мог бы показать варианты, что такое Курчатова, 12, и в каком из этих домов есть квартира 25, а в каком нет. При этом есть реальные случаи использования, когда адреса и в таком виде могут быть обработаны, если на дальнейшем этапе обработки мы понимаем, какого именно сорта неоднозначности обнаружены. И да, я прекрасно понимаю, что если адрес записан неверно, то и токены 12, 25 тоже могут содержать ошибки :), и эта задача может быть неразрешимой.

Добрый день! спасибо, действительно, нам есть, куда развивать адреса в помощь операторам, которые разбирают негарантированные данные.

Сейчас для Москва Курчатова 12 25 отдадим основной результат с улицей, подсветим, что дома 12 на ней нет, что восстановили типы дома, улицы и региона, а площадь Курчатова отдадим в вариантах. Но аналитику по варианту с площадью не предоставим.

На наличие квартиры сейчас совсем не обращаем внимание, пока еще нет уверенности в полноте справочника в части квартир и помещений. К тому же в данный момент при добавлении новых фич мы тщательно взвешиваем пользу и влияние на скорость алгоритма.

В будущем хотим отдавать больше маркеров качества и добавить возможность показывать варианты разбора домовой части. Чтобы можно было подсветить, что 12-1 это может быть дом-квартира, дом-корпус или строение-помещение и какие из вариантов есть в справочнике.

Ну судя по этому описанию, вы таки здорово развили API с тех пор как я на него смотрел.

интересно, часть фич есть довольно давно.

ответ Фактора можем кастомизировать, а в стандартном API собрали самое востребованное, если вы его использовали, то могли не увидеть всех возможностей 😢

Ну, как давно... это дело было примерно в 2017-2018 году, не позже. И да, у меня даже сборка была кастомная, я выкинул все ресурсы кроме связанных с адресами, чтобы из спарка лучше работало.

🔥

за 7 лет правда многое изменилось!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий