Вы спрашивали какие темы стоит раскрыть в последующих статьях. Думаю, было бы здорово написать подробнее про комбинирование ручных правил и машинного обучения
Вы пробовали оценить количество правил, необходимое для корректного извлечения адресов? Типовой адрес в РФ имеет 3-6 уровней адресации (например: область, район, город, улица, дом). Если просто предусмотреть для каждого уровня по 10 частных правил (правила для каждого уровня свои), то общее число правил для пяти-шести уровней достигнет 10^5-10^6. Есть ли какие-то варианты сократить число правил, необходимое для извлечения адреса?
Во втором абзаце вы тоже ввели дополнительную структуру. И с точки зрения теории автоматов — это недетерминированный конечный автомат. Чтобы понять в чем его отличия от описанного в посте, нужно смотреть программную реализацию. Возможно их нет. В этом случае попробуйте перейти к детерминированному автомату — реализовать проще и работает быстрее.
Во втором абзаце вы тоже ввели дополнительную структуру. И с точки зрения теории автоматов — это недетерминированный конечный автомат. Чтобы понять в чем его отличия от описанного в посте, нужно смотреть программную реализацию. Возможно их нет. В этом случае попробуйте перейти к детерминированному автомату — реализовать проще и работает быстрее.
mefrill, во втором абзаце вы тоже описали автомат. Trie это тоже специальный случай конечного автомата, причем детерминированного.