Комментарии 6
Делал подобное решение, но для сопоставления аптечных препаратов.
Из аптеки приходили строки из аптечного каталога и нужно было сопоставить классификатором.
решал подобным образом, только через регулярные выражения. с начался пытался определить, а что пришло? какие формы выпуска и прочее пришло, какое ТН и прочее и на этом основании ссужал в классификаторе выборки пока не оставалась одна. или несколько.
если несколько то определял где расхождения и манипулировал с данными и если не приводило к результату 1 к 1 то выдавал оператору на уточнение.
В своем проекте для выделения текста адресов использую приличную регулярку с пост-обработкой исключительных случаев, которая "цепляется" за тип улиц, потом за слова с большой буквы, часто используемые и типичные слова, числительные.
Хорошо отрабатывает, хотя и пришлось изрядно попотеть над обобщением правил.
Поиск адресов в «испорченных» данных