Search
Write a publication
Pull to refresh
1
0
Траулько Макс @maximtra

User

Send message

Естественно, любой фильтр можно обойти, особенно, если рассказывать все секреты про то, как он устроен. Но это абсолютно не отменяет того, чтобы выявлять бóльшую часть «плохих» и подозрительных значений.

Реализация как раз и предусматривает то, как ложно не ругаться на нахождение грубого значения в ФИО для реальной Елены Головач (объяснил в ответе выше), которая на момент 2023 года являлась сотрудником ГБУК «Пензенский краеведческий музей» (хотя для вас, и к ужасу для этого человека, это всегда 100% «мемы-памятники»), и что сделать, чтобы помечать такое ФИ подозрительным в остальных случаях, не затрагивая реальную Елену Головач.

Такие примеры не получат маркер «нашли мат/грубое слово», так как для простановки маркера выполняется проверка, что ничего не подобралось справочного (с учетом возможных опечаток) ко всем токенам, которые используются ругательством.

На примере «Головач Лена». Предположим, что из справочника грубых слов к такой строке ФИ подбирается ругательство.

Алгоритм стандартизации ФИО (до нахождения мата/грубых слов) выберет то, какой токен/токены в строке ФИО куда разложить по полям – фамилия, имя и отчество. Понятие токена понадобится дальше, поэтому это отметил.

Далее вычисляется то, к какому токену (или каким токенам) относятся использованные символы ругательства. В данном примере к двум токенам – Головач и Лена. И поскольку к токенам поберутся справочные значения (даже с учетом опечаток типа Галавач Лена и пр.), маркер «нашли мат/грубое слово» не поставим. И даже если фамилию указать другую с окончанием на букву «ч», маркер все также не поставим.

Мы не удаляем подозрительные значения из ФИО и тем более не делаем преград для ввода. Мы лишь помечаем подозрительные ФИО маркером для отправки карточки человека на просмотр дата-стюардом.

Мы не удаляем подозрительные значения из ФИО и тем более не делаем преград для ввода. Мы лишь помечаем подозрительные ФИО маркером для отправки карточки человека на просмотр дата-стюардом.

да, и реальное китайское имя, правда, скорее неправильное транскрибирование китайского имени, которое встречается у заказчиков

Это такой старый баян, конечно, мы это уже видели на просторах Интернета

Сейчас к данной фамилии подбирается похожее справочное значение, поэтому маркер «нашли мат» не поставим.
Представим, что справочного значения не подбирается, и не нужно ставить маркер «нашли мат».

Решений 3:

  1. внести такое значение в справочник фамилий для конкретного заказчика, но в этом случае мы перестанем ругаться на данное слово.

  2. если фамилия несправочная, и ее не хочется вносить в справочник фамилий, то мы можем внести фамилию в справочник исключений swear-exception.csv. Но в этом случаем мы так же перестанем считать это слово ругательным в принципе.

  3. в фильтре ФИО уже имеется справочник исключений полных ФИО, который создан для реальных уникальных ФИО, которые противоречат общепринятым правилам (в статье о нем не рассказывал). В него можно внести полные ФИО (и при необходимости — дату рождения, зависит от процессов у заказчика). В этом случае не будем ругаться маркером «нашли мат» для конкретного лица, но будем продолжать ругаться на другие значения, если они отличны от указанных в справочнике «полных ФИО + возможная ДР». Такой справочник исключений полных ФИО создавался раньше задачи про мат, чтобы, например, когда в паспорте допущена опечатка, мы не исправляли ее в системах заказчика.

Учитываем, сейчас такие фамилии не получают маркер «нашли мат».
Для управления этого в первой версии реализованной фичи есть несколько рычажков:
— не поставим маркер справочным значениям ФИО, а наши справочники имеют большóе покрытие для РФ, а так же имеется справочник азиатских значений.
— если ФИО несправочное, и его не хочется вносить в справочники ФИО, то мы можем внести его в справочник исключений swear-exception.csv (то есть не буем ругаться на такие фамилии).

Вторая фамилия из примера — первые три буквы (без окончания «кина») — это реальное китайское имя, правда, скорее неправильное транскрибирование китайского имени, которое встречается у заказчиков.

Еще мы предусмотрели справочник исключений полных ФИО, который создан для реальных уникальных ФИО, которые противоречат общепринятым правилам (в статье о нем не рассказывал). В него можно внести ФИО (и при необходимости — дату рождения, зависит от процессов у заказчика). В этом случае не будем ругаться маркером «нашли мат» для конкретного лица, но будем продолжать ругаться на другие значения, если они отличны от указанных в справочнике «ФИО + возможная ДР».
Вообще такой справочник исключений полных ФИО создавался раньше задачи про мат, чтобы, например, когда в паспорте допущена опечатка, мы не исправляли ее в системах заказчика.

Information

Rating
Does not participate
Location
Россия
Registered
Activity

Specialization

Systems Analyst, Data Analyst
Middle