Привет, Хабр!
Команда CTSG запустила новый сезон подкаста Crosscheck. В одном из первых выпусков эксперты обсуждают актуальную, «горящую» на сегодняшний день, тему обезличивания баз данных: изменения в законодательстве, методы обезличивания, маскирование и многое другое.

Что двигает рынок: новый приказ РКН №140 и старая реальность - 152-ФЗ
Ключевой триггер — 140-й приказ Роскомнадзора, который с 1 сентября подталкивает операторов ПДн к более формализованной и, главное, воспроизводимой практике обезличивания. Смысл не в том, чтобы «разок замаскировать табличку для галочки», а в том, чтобы выстроить процесс: как готовим данные, как документируем, как храним, как передаём, и чем именно обезличиваем.
Спикеры подсветили важный момент: обезличивание в российских реалиях часто вспоминают не тогда, когда «пора наводить порядок», а когда уже пришли с запросом на данные. Например, когда нужно в ограниченный срок подготовить обезличенный набор — а процесса нет, ответственных нет, данных много, и внезапно выясняется, что «быстро» этот процесс не выстраивается.
152-ФЗ остается основным законом, который регулирует работу с персональными данными. Однако, в этом году он претерпел изменения: увеличились штрафы, теперь при повторной утечке данных компания может заплатить процент от ее выручки.
Почему ручное маскирование работает ровно до первого большого объёма
Ручное маскирование ломается не потому, что «плохо написали регламент», а потому что оно не выдерживает реальности. Во-первых, негативное влияние несет человеческий фактор. Поля меняются, формы правят, ошибки обнаруживаются поздно — и всё приходится откатывать назад.
Во-вторых, масштаб. Скрипты на Python или SQL помогают, но не решают проблему, когда инфраструктура распределённая, есть несколько хранилищ и КХД. Как говорит Артём Мичалин, такой подход «невозможно масштабировать на большую инфраструктуру».
В-третьих, повторяемость результата. Заказчику важно, чтобы условный «Иванов Иван» превращался в «Петрова Петра» одинаково во всех местах, иначе тесты, аналитика и сопоставления разваливаются. Это звучит как «ну очевидно», но руками это обеспечивать — тот ещё квест.
По срокам всё тоже довольно приземлённо. Али описывает старт ручного пути так:
«Месяц, а иногда и больше, уходит только на то, чтобы понять, где лежат персональные данные, и кто за них отвечает»
А дальше — написание и поддержка скриптов, которые не всегда можно переиспользовать. В итоге процесс легко растягивается на полгода и больше.
Файлы и логи - это тоже ПДН?
Почти всегда разговор про обезличивание начинается с баз данных: таблицы, поля, связи, «всё по полочкам». Но спикеры напомнили неприятную правду: огромный пласт ПДн живёт не в БД, а в файлах, документах, логах, выгрузках и журналах событий.
Типовой сценарий: крупная организация собирает логи в SIEM, а потом эти логи нужно передать вендору/партнёру/интегратору. И внезапно выясняется, что в непроизводственной БД лежат персональные данные. Их ещё надо сначала найти, а потом заменить так, чтобы лог не превратился в кашу. Колоссальный труд, если делать руками — и отдельная причина, почему растёт спрос на решения для профилирования и маскирования именно неструктурированных данных.
Решение для обезличивания
Обезличивание давно перестало быть задачей только ИБ-отдела. В реальности данные из продуктива постоянно нужны разработке и тестированию. И тут возникает развилка: либо рисковать, передавая «боевые» данные, либо тестировать на обезличенных значениях вида *** и сталкиваться с ошибками уже в проде.
«Для большой организации передача данных в исходном виде — это по сути слив в интернет», - комментирует Али Гаджиев.
Решение Jay Data закрывает именно этот разрыв: данные остаются полезными для тестирования и аналитики, но при утечке не несут ценности.
Маскирование и шифрование — не одно и то же
На рынке их до сих пор путают, хотя разница принципиальная. Шифрование защищает данные в хранении и предполагает обратимость. Маскирование — про передачу и использование, когда данные сохраняют структуру и смысл, но теряют привязку к реальным людям.
«Если есть компрометация привилегированных учётных данных, одно маскирование не спасает», - подчеркивает Артём Мичалин.
Зато в типовых сценариях утечек замаскированные данные просто бесполезны для злоумышленника — и это уже серьёзное снижение риска.
Не только ПДн: “sensitive” шире, чем кажется

Чувствительные данные — это и коммерческая тайна, и финансы, и техническая информация, и документы. И часть такого добра живёт в старых форматах файлов, с которыми «в лоб» не всегда работает даже привычное маскирование.
«Персональные данные — это только первый уровень. Реально критичные данные для бизнеса часто лежат в файлах, отчётности, чертежах и инструкциях», - подытожил Артём Мичалин.
То есть цель часто стартует как «закрыть ПДн», а нормальная зрелая сверхцель — научиться находить и защищать всё критичное, что реально может помочь атакующему или ударить по бизнесу.
Слушайте и смотрите полный выпуск подкаста «CrossCheck 2.0: Обезличивание не по приказ��»:
Пишите в комментариях, сколько раз слово «данные» мы написали в этой статье?) А также делитесь вашим опытом в данной сфере.