Цифровизация в хорошем смысле этого слова-1. Персональные данные / Песочница / Хабр

В чём состоит проблема

Анализ больших данных - очень полезная вещь. Он позволяет найти неожиданные закономерности, и затем применить их к решению практических задач. Например, для каждого человека спрогнозировать его уязвимости по части здоровья, и предложить реалистичный план их коррекции, с учётом привычек и темперамента именно этого человека.

Но проблема в том, что почти все данные о человеке оказываются связаны воедино, и значит - выявленные закономерности могут быть применены совершенно посторонними организациями совсем не по желанию самого человека, и не к его пользе.

Значит, проблема заключается:

В излишней связности данных
В бесконтрольном распространении персональных данных

Как же организовать персональные данные, чтобы, с одной строны, дать возможность выявить закономерности на основе больших данных, и с другой стороны, не позволить использовать эти данные без разрешения человека?

Как эту проблему решают сейчас?

Её решают юридическим путём. Данные утекают, это невозможно предотвратить. Государство пытается только минимизировать последствия утечки, обычно - с малым успехом. Потому что информация - не воробей, вылетела - обратно не поймаешь.

Информацией фактически владеет тот, у кого она хранится физически. Если данные лежат где-то в централизованной базе, то перехватывать контроль над ней будут кто угодно - лоббисты разных корпораций, властные группировки - но только не вы сами.

Да, можно пойти официальным путём: бодаться с официальными структурами. Но это занятие безрезультатное, и очень энегрозатратное. Попутно вы получите массу острых ощущений, но результата не добьётесь.

Какое решение предлагаю я

Я предлагаю простое решение. Чтобы данные не утекали, просто не надо их отдавать никому и никогда. Все свои данные человек хранит локально у себя, например, в домашней файлохранилке, или в старом ноутбуке, или в смартфоне. Туда же стекаются данные с личных гаджетов, например, с фитнес-браслетов, или с домашних камер-видеонянь. Мощность и ёмкость бытовых компьютеров уже давно более чем достаточна, чтобы без проблем хранить весь объём своих данных локально, своими силами.

Данные о человеке никогда не покидают закрытое домашнее хранилище. Примерно как сейчас хранятся приватные ключи от ЭЦП. В этом случае их никто и не украдёт.

Но как же тогда вести анализ больших данных? Ведь хочется получить все плюшки, которые может дать эта технология, и притом не получить неприятных последствий.

А вот как вести. По принципу map-reduce. Это значит, что некоторый стат. показатель рассчитывается распределённо, на каждой ноде по-отдельности. А потом эти результаты суммируются на вышестоящей ноде.

Например, городу требуется оптимизировать работу скорой помощи, и для этого хочется знать, сколько людей со склонностью к инфрактам проживает в каждом квартале. На домашние устройства жителей квартала приходит такой запрос. Устройства случайным образом среди своего множества выбирают устройство-координатор. Далее каждая домашняя машинка по сырым исходным данным локально производит вычисления, и выдаёт результат: два человека в данном домохозяйстве имеют такую предрасположенность. Вот эти посчитанные количества от каждой машинки приходят на координатор, суммируются, и отправляются наверх. После этого иерархия распадается, и выстраивается заново при следующем запросе, уже с другим устройством-координатором.

Система хранения разнородных локальных данных стандартизируется. Локально запускается сервис, который получает стат. запросы сверху и считает результаты. Этот же сервис отсекает слишком детальные запросы, например, запросы по адресу с точностью до квартиры. Этот же сервис отвечает за выстраивание временной иерархии master-slave нод при каждом конкретном запросе. Принципиально важно, что нет выделенного постоянного устройства-координатора, а все устройства равноправны и имеют равные шансы попасть в координаторы.

Чтобы невозможно было создать уязвимость с помощью монополизированного "официального программного обеспечения для локальных хранилищ ПД", стандартизируются только API и форматы передачи данных. Под это API каждый желающий сможет написать свой клиент.

Таким образом, чувствительные данные никогда не покидают стены домохозяйства. Очень простое решение получается. Не хочешь утечки данных и дальнейших злоупотреблений - просто никому их не давай. Статистику я и сама локально посчитаю, не проблема. А фамилия моя и паспорт им ни к чему.

То же самое касается и электронных историй болезни. Храним всё у себя на смартфоне/флешке, и приходим к врачу с ней. Прикасаемся смартфоном к NFC-метке, смартфон закачивает себе локально всё нужное ПО для работы данного врача, и дальше врач на приёме смотрит результаты расчётов прямо на твоём смартфоне. Максимум, для удобства просмотра можно подключить к смартфону большой монитор врача по hdmi.

Тогда и не надо будет отслеживать все многочисленные согласия на обработку персональных данных, с припиской мелким шрифтом, что эти данные могут отдать кому угодно. По причине: "а вот в таких-то и сяких-то случаях вам самому удобно будет, чтобы третья сторона эти данные уже имела заранее. Вот мы заранее ей и отдадим ваши данные. Для вашего же удобства."

Нет уж. Для меня не проблема эти данные носить с собой в смартфоне. И если эта самая ситуация наступила, и я сама решила, что хочу воспользоваться услугами третьей стороны, то я третьей стороне эти данные сама покажу на экране своего смартфона. Или не покажу. Если им требуется предварительно обработать мои данные - я закачаю на смартфон их третьестороннее приложение для обработки, и покажу им только результат обработки данных.

Как сделать, чтобы при обработке всякие сторонние скачанные приложения не слили мои локальные данные через интернет? Скачиваем приложение, и сразу же отключаем мобильную связь и wifi. Приложение сработало, выдало результаты, например, в виде PDF или XML. Всё, больше приложение не нужно. Удаляем приложение, и только после этого восстанавливаем мобильный интернет и wifi.

Понятное дело, не вручную включаем/отключаем/удаляем. Делаем специальное API для таких "приложений для сиюминутной задачи". Приложение-сиюминутка может закачаться в смартфон, только если она написана под это API. ОС смартфона распознаёт, что в неё закачали "сиюминутку", и автоматически проводит сиюминутку по её жизненному циклу. То есть: помещает её в песочницу, отключает внешние связи, запускает приложение, забирает результаты, удаляет приложение, включает связь.

Все данные, которые нужны "сиюминутке" для работы, должны быть зашиты в самом приложении, и не могут быть скачаны снаружи. Это самый строгий вариант. Возможен вариант, когда ОС смартфона разрешает приложению-сиюминутке только однонаправленную связь: взять данные из интернета. Но блокирует попытки хоть что-то отдать наружу.

Остаётся вопрос: а что делать одинокой старушке без смартфона, со старой кнопочной Нокией? Проблему можно решить с помощью благотворительности. В каждом доме со временем скапливаются устаревшие смартфоны, ноутбуки, планшеты, компьютеры. Форматируем их, устанавливаем на них клиента для хранения локальных данных, и дарим ближайшей одинокой старушке.

В самом минималистичном варианте, для хранения данных нужен какой-нибудь мини-вариант линукса, и самый легковесный веб-сервер. Поскольку стандартизируется только API, то можно создать клиенты на все случаи жизни, в том числе и под очень слабое железо. Да в конце концов, можно из бюджета подарить одинокой бабушке готовую коробочку со всем установленным ПО, которую нужно только включить в розетку. По-любому это будет дешевле для налогоплательщиков, чем хранить данные централизованно, и под это дело создавать пять нацпроектов, и сажать на кормление по три олигарха на каждый проект.

В таком решении проблемы заинтересованы только сами конечные пользователи. Поэтому не имеет смысла ждать, что какие-то централизованные структуры станут координаторами этого проекта.