Комментарии 26
Как появилась эта задача? В одной крупной компании клиенты могут оставить обращения во фронт-системе. И иногда пишут в полях ФИО, прямо скажем, черт знает что. А у бизнеса риски: если при ответе на обращение автоматически использовать данные из поля «Имя», можно стать героем насмешливых или гневных постов.
Чуть раньше с такой же проблемой к нам пришел другой клиент, из ретейла. У того клиенты вообще большие выдумщики — придумывают составные и сложные имена и фамилии с обсценной лексикой.
Ну да, ну да. Сначала мы обмазываем всё чат-ботами и голосовыми помошниками до состояния хрен прорвёшься: "Уважаемый клиент, нам очень ценно ваше обращение/звонок, давай сука быстро все адреса/пароли/явки/мэйл и девичью фамилию, а если ты, тварь, не заполнишь хоть одно поле - хер тебе по всему лицу, а не ответ на вопрос как мы работаем в ближайшие праздники и есть ли у нас обеденный перерыв оставьте сообщение в чате или закажите обратный звонок.", а потом удивляемся Камазам Помоев с телефоном +7123456789 и мэйлом pnh@nomail.suka.
В далёких 2000-ых. В Минске была возможность выкачать телефонный справочник домашних телефонов...
Так вот там была женщина с фамилией Шлю..а.
В дальнейшем вроде она поменяла эту фамилию, но суть не в этом
Как вы обыграете ситуацию, когда это реальная фамилия?
Сейчас к данной фамилии подбирается похожее справочное значение, поэтому маркер «нашли мат» не поставим.
Представим, что справочного значения не подбирается, и не нужно ставить маркер «нашли мат».
Решений 3:
внести такое значение в справочник фамилий для конкретного заказчика, но в этом случае мы перестанем ругаться на данное слово.
если фамилия несправочная, и ее не хочется вносить в справочник фамилий, то мы можем внести фамилию в справочник исключений swear-exception.csv. Но в этом случаем мы так же перестанем считать это слово ругательным в принципе.
в фильтре ФИО уже имеется справочник исключений полных ФИО, который создан для реальных уникальных ФИО, которые противоречат общепринятым правилам (в статье о нем не рассказывал). В него можно внести полные ФИО (и при необходимости — дату рождения, зависит от процессов у заказчика). В этом случае не будем ругаться маркером «нашли мат» для конкретного лица, но будем продолжать ругаться на другие значения, если они отличны от указанных в справочнике «полных ФИО + возможная ДР». Такой справочник исключений полных ФИО создавался раньше задачи про мат, чтобы, например, когда в паспорте допущена опечатка, мы не исправляли ее в системах заказчика.
цензура для куколдов
надеюсь, вы станете героями смешных постов про людей с реальными именами и фамилиями, которых случайно замела ваша маленькая локальная РКН-версия
А учитываете ли реальные матерные фамилии, такие как Хуевич, или Хуйкина? Фамилии вполне себе реальные и в жизни я с владельцами таких фамилий пересекался )))
Учитываем, сейчас такие фамилии не получают маркер «нашли мат».
Для управления этого в первой версии реализованной фичи есть несколько рычажков:
— не поставим маркер справочным значениям ФИО, а наши справочники имеют большóе покрытие для РФ, а так же имеется справочник азиатских значений.
— если ФИО несправочное, и его не хочется вносить в справочники ФИО, то мы можем внести его в справочник исключений swear-exception.csv (то есть не буем ругаться на такие фамилии).
Вторая фамилия из примера — первые три буквы (без окончания «кина») — это реальное китайское имя, правда, скорее неправильное транскрибирование китайского имени, которое встречается у заказчиков.
Еще мы предусмотрели справочник исключений полных ФИО, который создан для реальных уникальных ФИО, которые противоречат общепринятым правилам (в статье о нем не рассказывал). В него можно внести ФИО (и при необходимости — дату рождения, зависит от процессов у заказчика). В этом случае не будем ругаться маркером «нашли мат» для конкретного лица, но будем продолжать ругаться на другие значения, если они отличны от указанных в справочнике «ФИО + возможная ДР».
Вообще такой справочник исключений полных ФИО создавался раньше задачи про мат, чтобы, например, когда в паспорте допущена опечатка, мы не исправляли ее в системах заказчика.
Лично знал женщину с фамилией "Ва`гина".
Классическая Лена Головач
Ну и варианты нередкой фамилии Банько для Елен)
Такие примеры не получат маркер «нашли мат/грубое слово», так как для простановки маркера выполняется проверка, что ничего не подобралось справочного (с учетом возможных опечаток) ко всем токенам, которые используются ругательством.
На примере «Головач Лена». Предположим, что из справочника грубых слов к такой строке ФИ подбирается ругательство.
Алгоритм стандартизации ФИО (до нахождения мата/грубых слов) выберет то, какой токен/токены в строке ФИО куда разложить по полям – фамилия, имя и отчество. Понятие токена понадобится дальше, поэтому это отметил.
Далее вычисляется то, к какому токену (или каким токенам) относятся использованные символы ругательства. В данном примере к двум токенам – Головач и Лена. И поскольку к токенам поберутся справочные значения (даже с учетом опечаток типа Галавач Лена и пр.), маркер «нашли мат/грубое слово» не поставим. И даже если фамилию указать другую с окончанием на букву «ч», маркер все также не поставим.
Вы таки явно в инете не слишком давно живёте.
Е.Банько и Головач.Лена - это уже даже не мемы, а памятники.
А вы их не распарсили.
ну и плюс известная фидошная подпись "обойду ваш любой антимат-фильтр"
За давностью лет уже за буквальность подписи не ручаюсь.
И это было ещё во времена koi8r... а сколько сейчас чудных возможностей у юникода...)
Реализация как раз и предусматривает то, как ложно не ругаться на нахождение грубого значения в ФИО для реальной Елены Головач (объяснил в ответе выше), которая на момент 2023 года являлась сотрудником ГБУК «Пензенский краеведческий музей» (хотя для вас, и к ужасу для этого человека, это всегда 100% «мемы-памятники»), и что сделать, чтобы помечать такое ФИ подозрительным в остальных случаях, не затрагивая реальную Елену Головач.
Хайитмурод, Хохренова, Чеботько, Солохина, Сосипатровна, Аблязова, Абдурасул, Асретов, Фанус
Это они ещё стартовые бонусы команде корабля не выдавали!
И чем только люди не занимаются, лишь бы не поворачивать свой бизнес лицом к клиенту!
Если человек называет себя матным словом, значит, и в ответе надо указывать именно это слово. Если вам пишут матом, подумайте, почему ваши (бывшие) клиенты так делают. Хотя слово «подумать» вашему начальству явно не знакомо...
У вьетнамцев есть фамилии ровно на три буквы. У 1С там филиал и несколько человек в партнерском форуме писали.
Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО