All streams
Search
Write a publication
Pull to refresh
17
0
Утюгов Александр @ALIron

Архитектор

Send message
Думаете там будет разбор адресов из строчки да еще и по почтовой БД?

Совпадает не всегда и сейчас, а вот если добавить Росреестр и БТИ по всей стране, получается множественная версия правды в зависимости от применения.
Хочешь посылки доставлять — бери почтовую базу,
Хочешь налоги считать / сдавать — бери ФИАС
Хочешь в Агенство по страхованию вкладов отчетность сдать — бери КЛАДР
Ну БТИ — отдельные ребята, хотя пространство — время у нас с ними общее живут параллельно не пересекаясь с остальными.

Адресная строка рассматривается как единый указатель на точку.
Если есть неопределенность в улице рассматривается город, в Москве есть и Дубнинская и Дубининская — ок. Смотрим индекс если есть у этих улиц они разные. Смотрим дома (есть случаи когда на одной улице дом 55 есть, а на второй его нет)
Таких факторов внутри адресной строки много.
И если не можем принять решение о гарантии «зеленого» разбора — да отдаем на ручную проверку, но нужно понимать что любой подготовленный человек на такой работе дает в среднем 1-2% ошибки, а если это потоковый разбор то может отдавать и все 5% с ошибкой.
За человеком тоже нужна проверка.
«Машина разбирает- человек проверяет. Человек разбирает — машина проверяет»
По этим же причинам перенос технологии из одной страны и языка на другие практически эквивалентен разработке с нуля, поскольку львиная доля времени и расходов — это качественные тесты, а не алгоритмы.


Зависит от подхода. Если лупить просто по хэш таблицам которые наполняются за 2 млн $ /год -да.
А если учитывать семантику (европейские языки похожи, а иероглифические тоже можно) и верифицировать с эталонами, то можно и Украину разбирать и Казахстан с Германией.

ФИАС имеет в среднем 2-3% ошибок о каких 4-х девятках мы говорим с таким уровнем эталона? Свой эталон? — Отлично, но ошибки суммируются, а не компенсируются зачастую.

Четыре девятки это показатель относительно чего?
В продолжении 100 тыс адресов при работе по 15 минут на адрес (а бывают куда более сложные случаи и по пол часа и по часу разбираются что случилось) получается трудозатраты 25 тыс часов, или 142 человекомесяца.
Тупого достаточно труда. У вас ИТ-фабрика в Китае? =)
2 миллиона $ это конечно хорошо, даже очень, но всё же.
Это 124 млн рублей в год, по 10 млн в месяц.
Для работы вида
Это значит, что ежемесячно вручную проверяются десятки и сотни тысяч адресов. Постепенно процессы отлаживаются и обслуживание такого корпуса снижается, но вряд ли на это стоит рассчитывать в первые годы.

и белой зп с налогами в 100 т.р/ месяц получатся 103 обезьянки. (с запасом)
HFLabs всего работает около 20-30 человек.
Или вы лукавите ли работы делает кто-то другой, а вы пользуетесь их трудом.
Если кто то другой — то каков уровень доверия к таким тестам и из наполнению?
Пользуемся больше года.
Еще со старой десктопной версией работали. На ней была iOS версия (почему нельзя переключить на новую — не понятно). iOS версии не хватает, очень жду.

Работает стабильно сейчас. Пол года назад были проблемы со звуком при встречах больше 20 человек. Не постоянно, но бывало теряли звук.
Стабилизация — дело понятно.

Если не смотреть на цену, то очень достойное решение, для организации общего пространства для удалёнщиков.
Обещали (https://habrahabr.ru/company/hflabs/blog/267997/#comment_8601897)
Сделали.
Молодцы.
Очень достойно.
У нас Lucene не используется напрямую. С движком мы работает через Hibernate Search 5. В части фасетов применяется FacetManager.
Скорее всего он и использует DrillSideways для drill-down поиска.
Проблема больше не в многокритериальности, а в том, что невозможно установить связь между элементами коллекций проиндексированной сущности
Фасеты, особенно иерархические интересны. Их на Lucene имеет смысл делать?
Пока что у нас получаются только плоские одноранговые из коробки достать.
Присоединюсь к обмену.
В общую копилку Фамилия — пол, Имя- Пол, Отчество- пол. Выстраданное в том числе и операторами на местах.
Решал похожую задачу. Только тарифы были не на год а на 20-50 лет=) (НПФ)

Оформляли как то это решение?
Получается что система определяет пол если не указан + переопределяет если указан не верно(?) что в конечном итоге влияет на тариф => на финансовые результаты организации. А тем где есть деньги — много бумаг (особенно в больших компаниях «при объеме портфеля договоров в несколько миллиардов» )
Или всё же назначение пола сотрудник утверждает => берет на себя ответственность.

и да FAR / FRR какие при разборе? Прямая и обратная ошибка при дедубликации.
А такие случаи обрабатываете?
Научной базы маловато под статьёй. Крупнейшие компании есть в проектах, а всё исповедуется подход «Третий сорт не брак».
На выборках в 1000 записей сработает ключ уникальности «ФИО+Дата Рождения», а на стране — даже «ФИО+Дата рождения + Место рождения» не срабатывает иногда.
Ого. Спасибо за ссылки. Упустил этот момент.
Пробовал добиться подобного от ФНС в 2009 году.
Видимо созрели. =)
Единственный законный источник ЕГРЮЛ — ГНИВЦ ФНС.
Вы с ними договорились?
Насколько я помню юридических оснований для передачи ЕГРЮЛ у ГНИВЦ ФНС нет.
Если источник не ФНС — какой уровень доверия к такому источнику?
И как доверять данным «восстановленным» по такой базе?
Есть мнение что это разные вещи.
НСИ — стабильная часть данных: государственные справочники, отраслевые и внутренние классификаторы и подобные справочники.
Мастер-данные — динамичные реестры изменяемые при работе: клиенты, контрагенты и проданные продукты / услуги.

КЛАДР/ФИАС — НСИ, а список почтовых адресов клиентов — мастер- данные.
А всё же в чем разница между НСИ и мастер-данными?
В начале статьи управляют мастер данными, а в конце НСИ.
В России роль «молдавского» ИНН играет СНИЛС от Пенсионного фонда.
Он не меняется при переездах, но есть случаи с дублированием, один СНИЛС — два человека и два СНИЛС- один человек, но это скорее исключение на уровне стат погрешности, но вот попавшим под такие погрешности приходится не сладко.
Относительно паспортов — не лучший идентификатор, время жизни от 6 (20-14 лет) + возможности потери (выдается новый номер)
Вы будете смеяться, но да.
blog.chirkov.net/2015/01/14/pro-tezok-sudebnyx-pristavov-i-vytekayushhie-iz-etogo-problemy
Гарантированными идентификаторами являются:
ФИО+ДР+ Место рождения.
На выборках до 20 млн записей «Место рождения» чаще не играет роли, а на бОльших объемах находятся такие казусы.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity