Pull to refresh
1
Send message

Могу ошибаться, но мне кажется помимо запрашиваемых PII у пользователя в переписку может попасть что-то, что является pii и пользователь ввел их самостоятельно по какой-то причине и в формате, котором посчитал нужным. Причем не обязательно третьих лиц, и даже если третьих лиц, то можно ли считать это персональными данными? Будто бы, можно.
Тогда далеко не факт, что ваши проверки вычислят такое по regexp.
Конечно тут больше интересно, как регулятор на такое смотрит и может ли докопаться

Да, как раз пробую разные NER spaCy (ru), Natasha в связке с presidio, но получается так себе, очень много ложных срабатываний. И есть надежда на покрытие regexp телефонов, email, ИНН и тд
У меня нет потребности RealTime анонимизации, думаю мб модельку небольшую еще натравить.
Спасибо за ответ

Сейчас исследую возможности и способы по анонимизации данных
В статье не увидел конкретных библиотек/фреймворков/инструментов, которыми пользовались помимо regexp. Но ведь регулярными выражениями далеко не все покрывается...
Еще в статье указан NER, но не совсем понятно что использовали или вовсе не использовали, тк точность хромает.
Если бы немного раскрыли эту тематику, то было бы супер

Information

Rating
Does not participate
Registered
Activity