По хорошему ПО, через которое вводится данная информация, должно бы проектироваться именно с этим условием. Но задача заключалась именно в анализе выгрузки в таком виде, как описан в статье.
Мне вообще непонятно, зачем нужен ввод всех этих данных, если можно просто иметь одну единую базу паспортов с ид-шниками. Причем пользователь должен будет сам давать разрешение на получение паспортных данных (чтобы каждый встречный не мог получить их получить по id).
Введение в анализ текстовой информации с помощью Python и методов машинного обучения