Снова на те же грабли. Разбираемся с ошибками хранения ПДн и способами защиты медицинских данных / Comments / Habr

Недавно завершил работу в крупном медицинском data lake, ориентированном на EU, US, и Бразилию. Многое повидал, но вот этот пассаж статьи никак не укладывается у меня в голове. То ли плохой перевод, то ли написать, что бы написать:

После осмотра обезличенные данные передаются по зашифрованному каналу на нашу платформу для обработки. Шифрование также встроено в ПО комплекса и в дополнительный туннель на аппаратном уровне. Тем самым мы стремимся минимизировать возможность утечки персональных данных.

Данные обезличены. Их не надо шифровать. Они не представляют никакой ценности. Кроме того, объем данных таков, что вы просто захлебнетесь их кодировать-декодировать. Ну и последнее - если данные обезличены, то об утечке каких персональных данных идет речь?

Следующий пассаж тоже за гранью понимания:
Затем расшифрованные данные попадают к врачу, который принимает финальное решение. Иногда это бывает сложно, поскольку есть визуально похожие люди, а медицинский персонал проводит чуть больше двух миллионов осмотров в месяц.

Это же данные, о каких визуально похожих людях идет речь? У вас есть набор данных и признаки аномалии на наборе. Врач может, конечно глазками смотреть цифры, но он это сделает только при наличии уведомления об аномалии. Ни один нормальный врач не будет данные 2х миллионов пациентов в месяц просматривать лично. Потому и деанонимизация нужна только в случаях аномалии. Короче, если это реальная софтина, то явно это как-то по другому работает. Если это именно так и работает, то это не для людей созданная софтина.

Пассаж из статьи по ссылке подверждает дикость всей этой истории:

Если врач визуально не может с уверенностью определить личность пациента, это можно сделать с точки зрения обработки потоковых данных.

У вас 2 миллиона пациентов в месяц. Врач не должен знать никого в лицо вообще. Нужны данные и знание про аномалии.

В общем - жуткая история. Если это правда, то врачей ваших жалко.