Обновить
6
Артем Калашманов@art-adept

Руководитель R&D-департамента

Отправить сообщение

Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах

Время на прочтение14 мин
Охват и читатели4.2K

Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?

Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.

Читать далее

Информация

В рейтинге
Не участвует
Откуда
Москва и Московская обл., Россия
Зарегистрирован
Активность

Специализация

Менеджер проекта, Менеджер продукта
Средний
Git
SQL
PostgreSQL
ООП
Linux
Python
Базы данных
MySQL
Docker
Java