Search
Write a publication
Pull to refresh
6
0
Артем Калашманов @art-adept

Руководитель R&D-департамента

Send message

Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах

Reading time14 min
Views1.9K

Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?

Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.

Читать далее

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Registered
Activity

Specialization

Project Manager, Product Manager
Middle
Git
SQL
PostgreSQL
OOP
Linux
Python
Database
MySQL
Docker
Java