Как стать автором
Обновить

Комментарии 6

Делал подобное решение, но для сопоставления аптечных препаратов.

Из аптеки приходили строки из аптечного каталога и нужно было сопоставить классификатором.

решал подобным образом, только через регулярные выражения. с начался пытался определить, а что пришло? какие формы выпуска и прочее пришло, какое ТН и прочее и на этом основании ссужал в классификаторе выборки пока не оставалась одна. или несколько.

если несколько то определял где расхождения и манипулировал с данными и если не приводило к результату 1 к 1 то выдавал оператору на уточнение.

Самое неприятное-разрозненность данных и стремление каждого, кто составлял документы, делать это по-своему, надеюсь вас этим не пытали. Было бы интересно посмотреть на Ваше подобное решение, может быть есть какие-то ссылки?

В лс могу синуть

я выгребал смыслы из слов аптеки и потом сопоставлял их со смыслами классификатора

В своем проекте для выделения текста адресов использую приличную регулярку с пост-обработкой исключительных случаев, которая "цепляется" за тип улиц, потом за слова с большой буквы, часто используемые и типичные слова, числительные.

Хорошо отрабатывает, хотя и пришлось изрядно попотеть над обобщением правил.

столкнулся с задачей "написать свой Pullenti" (во внутренней сети ее нет, инсталлить/покупать не могу). Можете рассказать - много ли эвристик пришлось придумать? Хочется поподробнее поговорить со знающими (уже решавшими такую задачу) людьми.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории