t13s Aug 5 2014 at 15:44

Парсинг почтовых адресов из строки на C#

5 min

32K

.NET*

+16

Comments 49

Nagg Aug 5 2014 at 15:53

Глянул ваш код — повезло вам, что нет такой улицы как ' DROP TABLE ADDROBJ :-).
PS: код лучше выложить на GitHub.

t13s Aug 5 2014 at 16:06

А что, хорошее название для какого-нибудь района, куда лучше не ходить.
Ну и полагаю, это не самая страшная проблема, хоть и легкопочинимая.
Спасибо за советы :-)

Bringoff Aug 5 2014 at 17:13

У меня в городе есть и улица, и проспект Шевченко (он в нашем районе родился). То есть, с моим городом возникли бы проблемы) А у него население всего-то 20к.

t13s Aug 6 2014 at 05:56

А в городе, где я родился, все еще хуже: есть 19 квартал, и есть 19 микрорайон. И это разные штуки.
Но пока забил. Хотя грязный хак, который побеждает проблему, следующий: при выкусывании слов «улица» («ул»), «квартал» («кв-л», «квл»)… добавлять их православно-фиасовскую форму (поле SHORTNAME) в отдельный список. И если при поиске на очередном шаге нашли несколько элементов с одним названием, но разным SHORTNAME, выбирать тот, у которого SHORTNAME есть в выкушенном списке.

lair Aug 5 2014 at 18:23

Естественно, с достаточно жесткими ограничениями на входные данные, при которых будем продолжать изыскания:
Адрес всегда написан без опечаток: «проспект Арфографии» пусть останется на совести вводящего.
Запись адреса ведется от максимально общего элемента (область) до максимально частного (номер квартиры).
С учетом пункта 2, забиваем болт на слова-подсказки типа «область», «улица», «проспект», «дом». Так что если в городе есть и проспект Телепузиков, и улица имени их же, то уловить столь тонкую грань мы не сможем. С учетом редкости подобной ситуации и наличием права на ошибку – вполне себе рабочий вариант.

К сожалению, в реальной жизни эти три пункта плохо применимы. Мы тут как-то гоняли один не очень публичный адресный сервис на совершенно реальной базе адресов — получили точность распознавания процентов в 20-30.

Мой вам совет — помимо всего прочего, в общем случае парсер должен отдавать не один вариант, а несколько, с указанием веса (точности распознавания) каждого из них.

t13s Aug 5 2014 at 19:09

Видимо, мои подопечные подходили к делу более аккуратно, т.к. 62 тестовых результата из сотни распарсились корректно. Несколько вариантов парсер и сейчас прорабатывает, но отдает только победителя, так что модификация будет несложно. Но, возможно, бессмысленной, т.к. без работы с опечатками ценность весов теряется.

UFO landed and left these words here

t13s Aug 5 2014 at 19:16

Гуглить по «поиск по триграммам»

Спасибо! На самом деле, когда писал заключение про недостатки, гуглил, как их можно обойти. В PostgreSQL это нативно вроде как работает (http://habrahabr.ru/post/78566/), а под MS SQL нужно что-то городить. В общем, пока решил подзабить, а там посмотрим.

Не должен порядок влиять на качество

Согласен, тем более, что Артемий Татьянович наметил тенденцию использования обратного порядка (http://www.artlebedev.ru/kovodstvo/sections/163/), да и в цивилизованных странах он же используется.
Но тогда забивать на слова-подсказки вообще никак нельзя. А они могут стоять как перед значащим словом (ул. Декабристов), так и после него (Иркутская обл.)

UFO landed and left these words here

Mrrl Aug 6 2014 at 00:54

Без слов-подсказок трудно будет различить «Иркутская обл. пос. Лесной Смоленская ул.» и «ул. Иркутская Лесной пос. Смоленская обл.»

exvel Aug 6 2014 at 05:24

А такой (не совсем честный) вариант не рассматривали:
Отправлять адрес в поиск Яндекс/Гугл Карт и из результатов извлекать распарсеный адрес.
Конечно, есть шанс быть забаненым, если адресов очень много, но, думаю, это тоже решаемо, если подобрать оптимальные задержки между запросами или затариться несколькими прокси.

t13s Aug 6 2014 at 05:50

Пробовал такой вариант для тех адресов, которые не удалось распарсить своим методом. За исключением опечаток, Яндекс/Гугл-карты тоже не смогли дать внятный ответ. В периферийных регионах гугло-яндексовые карты местами хуже, чем ФИАС.
Ну и потом, затачиваться на сторонний сервис, для этой цели изначально не предназначенный — это обрекать себя на постоянный головняк с поддержкой.

t13s Aug 6 2014 at 05:50

del

dotnetdonik Aug 6 2014 at 06:24

Те 10 копеек за адрес идут за реальную работу людей, потому как реальный парсинг адреса требует еще и работы оператора. То что описали вы этой статье врядли можно назвать парсингом, подобную задачу доводилось решать один раз в качестве модуля к црм системе одного крупного банка, кроме разбиения и сопоставления с эталоном делалась умная самообучаемая система для операторов, которая давала в процентах 10 результат достоверный, в остальных выдавала предположения и варианты на основании расстояния левенштейна и предыдущем опыте работы оператов с системой.

nalgeon Aug 7 2014 at 05:42

10 копеек за адрес, конечно, идут за реальную работу людей — например, разработчиков сервиса :-) Парсить вручную адреса по 10 копеек никто не будет.

ALIron Aug 6 2014 at 07:15

Двойственное ощущение от таких статей.
1. Автор поучился, изучил предметную область и явно разобрался. LevelUP =)
2. С другой стороны поступил как программист. Зная о наличии сервисов высоким уровнем качества по 10 копеек за запись потратил не один день на написание своего кода с выходом ~70%
3. Странно отношение к адресу как просто в тексту, по сути это или адрес доставки корреспонденции или разрез аналитики. Доставка и корреспонденция стоит денег (70% аналитика — не аналитика=))
4. с точки зрения экономики просто умножите объем своей базы на 10 копеек и спросите стоило ли оно того при таком уровне разбора?

Результат работы программиста не код, а решенная задача.

lair Aug 6 2014 at 07:23

Зная о наличии сервисов высоким уровнем качества по 10 копеек за запись

С неизвестным уровнем качества, будем честными.

ALIron Aug 6 2014 at 07:31

Ну почему же?
Уважающие себя сервисы предоставляют демо версии и демо аккаунты. Некоторые даже пишут парсеры демо страниц и через них строят разбор адреса. =)
Можно сравнить свой разбор и предлагаемый.

lair Aug 6 2014 at 07:36

Вот именно, что можно сравнить. После этого можно будет говорить о качестве сервиса. После, а не до.

ALIron Aug 6 2014 at 07:44

Сейчас средний уровень коммерческих сервисов 95-99% от возможного разбора.
Обрабатывают даже ситуации "… зеленая дверь налево, звонить три раза, спросить разведчика Исаева"

lair Aug 6 2014 at 07:46

Поживем — увидим. Результаты своего тестирования одного такого специализированного сервиса я показывал выше.

ALIron Aug 6 2014 at 08:02

20-30% это кто ж так разбирает? еще и за деньги.
ИМХО в лидерах сейчас post-address.ru/ и dadata.ru/
C обоими знаком, но не одних не работаю.
Некоторые интеграторы пишут свои модули на различных Data Quality решениях, но пока до 90% добрались единици

lair Aug 6 2014 at 08:04

20-30% это кто ж так разбирает? еще и за деньги.

К сожалению, не могу сказать.

ИМХО в лидерах сейчас post-address.ru/ и dadata.ru/

Мы планировали их тестировать для своих задач, но пока не начали.

ALIron Aug 6 2014 at 08:18

Если не затруднит вывод в личку киньте после тестов. В своё время проводил сравнение IQ, HF, и двух решений которые не выжили на рынке.
Интересно как изменилась ситуация за 5 лет.

t13s Aug 6 2014 at 07:25

1. Да, это мотив!
2. Я и есть программист :)
Не факт, что уровень качества сервисов за 10 копеек высок. Я просто отметил их наличие, но не регистрировался и не проводил тесты. Были еще сервисы за 70 копеек. Возможно, между ними есть разница.
Потратил я как раз один день (точнее, вечер), на реализацию, и еще один — на доводку, тестирование и эту статью.
3. Задача заказчиком была утверждена именно так: «распознавать как-нибудь, без дополнительной оплаты за парсинг каждого адреса». Вариант с внешним сервисом, разумеется, предлагался.

С таковой точки зрения задача решена.

ALIron Aug 6 2014 at 07:42

1. Согласитесь, тема не так проста как выглядит на первый взгляд. Если долго всматриваться там видны и нейронки и генетические алгоритмы=)
2. Относительно цен. Качество — цена не имеет корреляции. Те кто делают дешевле чаще всего выезжают на объемах.
Относительно сроков реализации — производительно для такой задачи.
3. Заказчик странно относится к данным. Видимо постановка такая была от «бизнеса»

t13s Aug 6 2014 at 07:56

1. Тема ни разу не простая, поэтому я постарался как можно больше рассказать о недостатках такого «наколенно-однодневного» решения. С другой стороны, какое-то решение чаще все же лучше, чем никакого.
Нейросети, возможно, смогли бы оказаться полезными в классификации уровня адресного элемента (область, район, город, улица, дом, корпус, квартира) по рядом лежащим словам-подсказкам. Я с ними совсем не работал, поэтому, спасибо за наводку, попробую при наличии свободного времени поэкспериментировать. Но опять же, потом нужна будет фактическая база, по которой придется пробивать почтовый индекс. Ибо вряд ли получится обучить сеть экстраполировать индексы. :)
А вот чем тут могут помочь генетические алгоритмы?

2. Не стану спорить. Нужны тесты.

3. Это не ключевая для бизнеса функция. Поэтому так и относится.

ALIron Aug 6 2014 at 08:12

1. Фактическая база — тот же ФИАС и различные почтовые и прочие базы для набора критической массы. Как в интервью сказал один из разработчик такой системы «после 80-90 % каждый следующий процент требует ровно столько усилий сколько было приложено до этого».
+
Есть же еще, т.н. «обратная ошибка», т.е. адрес разобран и помечен как правильный, а он не верно был разобран и указывает совершенно другую точку в пространстве.

nalgeon Aug 7 2014 at 05:47

Вы так пишете о сервисах за 10 копеек, как будто ими весь рунет завален :-) Я только один знаю.

ALIron Aug 7 2014 at 07:01

Ну почему же один. Ваш и конкурентов=) это минимум.
Наверняка есть умельцы кто еще не вышел на большой рынок, а работает локально

nalgeon Aug 8 2014 at 10:48

Да, конкурентов я знаю много, а вот 10 копеек за запись только у нас :-) Черт, это нескромно.

nalgeon Aug 7 2014 at 05:44

Не понял из статьи, была ли решена бизнес-задача, заказчика устроили результаты парсинга?

Еще интересно, о каком количестве адресов шла речь.

P.S. «жадно пялились онлайн-сервисы… за вполне реальную мзду» — это прекрасно. Да как они посмели!

t13s Aug 7 2014 at 07:06

Заказчика результаты парсинга устроили, так что можно сказать, данная задача была решена.
Объемы адресов: периодически (примерно один раз в неделю) по 50-100 штук.

PS. Вот-вот! Нахалы, да и только! :)
А если серьезно, я не против подобных сервисов совсем. Опечалило лишь отсутствие открытых альтернатив (пусть и худшего качества).

ALIron Aug 7 2014 at 07:41

Прелестно.
1. Пересчитайте свои трудозатраты в количество недель обслуживания «нахальных сервисов». Хватило бы на годы =)
2. Можно просто прогонять через демо аккаунты объемы позволяют=)

lyalius Aug 8 2014 at 09:41

Вы потратили время своей жизни на то, чтобы некачественно воспроизвести сервис dadata.ru. Я не понимаю мотивацию вашей работы.

Не хочется отдавать добровольно доходы?
Сколько стоит ваш час? Умножьте его на количество часов, потраченные на разработку алгоритма. Теперь сравните с 10 копеек за запись. Каков результат?

Появился некий азарт
Есть еще столько нерешенных интересных проблем в мире в области софта, почему вы не используете свой азарт для них?

t13s Aug 8 2014 at 09:48

Каков результат?

Личное удовлетворение, деньги в кармане от заказчика, пусть хреновая, но доступная желающим реализация.

почему вы не используете свой азарт для них?

Очень хороший вопрос. Надеюсь, человек все еще может заниматься тем, чем он хочет?

lyalius Aug 8 2014 at 18:10

Я спрашивала про результат в денежном выражении. Это оказалось выгодней, чем 10 копеек за адрес или нет? Если по вашей часовой ставке?

Безусловно, вы можете заниматься чем хотите. Интересна мотивация писать то, что уже написано для вас. Зачем писать очередную «пусть хреновую» реализацию? Это перекликается с вопросом про деньги, мне прежде всего интересно, сэкономили ли вы :)

lyalius Aug 8 2014 at 18:12

И еще интересна бизнес-задача, для которой нужно «невысокое качества парсинга» с алгоритмом, ошибающимся в случайных местах. Поделитесь или это секрет?

UFO landed and left these words here

AlexGechis Aug 11 2014 at 20:08

Было бы очень интересно почитать про Ваш подход к работе с адресами, мне кажется, это было бы очень интересно и всему сообществу.

P.S.: по поводу адреса с сайта дадаты — это наша боль:) Мы не умеем нормально работать с бизнес-центрами, воспринимаем их как мусоррную информацию и не учитываем в разборе. В том числе некорректно работаем когда бизнес-центры расположены внутри домового расширения: попробуйте разместить название БЦ в другом месте предложения и получите корректный разбор. В основном такое поведение продиктовано бизнесом (мы исходим от адресов, которые чаще встречаются у заказчиков), но перфекционизм не даёт покоя, и, надеюсь, что в этом году мы ещё всех удивим.
Если Вы отправили нам адреса с неправильным разобром, то отдельное Вам спасибо, мы их учитываем при разработке новой версии адресного парсера.

UFO landed and left these words here

AlexGechis Aug 12 2014 at 04:03

Да, этими адресами мы занимаемся. Мы сейчас работаем над совершенно новой версией парсера, куда включаем сложные кейсы вроде представленных вами, так что в скором будущем почти всё будет обрабатываться правильно.

AlexGechis Aug 12 2014 at 04:29

Кстати, а что странного в определении домовой части в зависимости от месторасположения в строке? Вы же сами приводите пример такой зависимости: 6 рощинский 2. Смотрите сами:
Москва 6 рощинский 2 = Москва 6-ой Рощинский проезд дом 2
Москва 2 рощинский 6 = Москва 2-ой Рощинский проезд дом 6

UFO landed and left these words here

AlexGechis Aug 12 2014 at 09:44

Просто обычно доп информация добавляется сбоку от адресного компонента, но не внутри него. Вот пример от заказчика:
— 3-я Мытищинская улица, 14а Москва 3
Справа добавлена доп информация с числом, по Вашей логике следует разбирать адрес как дом 14а квартира 3, тогда как на самом деле речь про дом 14а, который находится рядом со станцией Москва-3.

UFO landed and left these words here

AlexGechis Aug 12 2014 at 10:48

А как Вы определяете квартиру? Основываясь на своём опыте, могу сказать, что обозначение квартиры далеко не всегда присутствует. Плюс интересно какое число считать за квартиру: слева или справа от обозначения. Например,
Улица Мытищинская 3-я 3 кв 1 и Улица Мытищинская 3-я 3 1 кв — одно и то же?
а Улица Мытищинская 3-я 3 к 1 — тут про корпус или квартиру?
Часто можно понять о чем идет речь только исходя из порядка следования элементов в домовой части

UFO landed and left these words here

AlexGechis Aug 12 2014 at 11:07

Понятно, спасибо!