sergeygolytsin 16 ноя 2021 в 06:00

Совместные конфиденциальные вычисления: как работает технология, которая через 5 лет может изменить мир

5 мин

6.4K

Блог компании PlatformaBig Data * Хранение данных *

+15

Комментарии 12

dkfrmmnt 16 ноя 2021 в 12:59

А можно подробнее обосновать, почему получится корректная модель у каждого из участников обмена?

sergeygolytsin 17 ноя 2021 в 11:00

Сама по себе часть модели, которая образуется на сервере одного из участников, не несет какого-либо смыла, поскольку она строится на секретах, и только после объединения весов моделей (сложения) она становится корректной. С нашей стороны тесты показали, что модели, обученные без MPC и с применением MPC, имеют идентичное качество.

RobertLis 18 ноя 2021 в 13:17

Верно ли я понимаю, что модели линейные? Трудно представить, что если модель нелинейная, то можно просто сложить веса. Выглядит как магия.

bigdataplatform 20 ноя 2021 в 11:27

Модели могут быть не только линейные, т.е. поддерживается и LR, и MLP, и даже упрощенная версия RNN.

kovserg 16 ноя 2021 в 14:51

А что мешает построить 'A' модель которая будет примерно восстанавливать (encoder) данные которые 'Б' не хочет раскрывать или их часть и наоборот?

sergeygolytsin 17 ноя 2021 в 11:02

Еще раз обратим внимание, что в процессе обучения модели исходные данные не передаются, те данные, что передаются (секреты), по отдельности не несут смысловую информацию. Поэтому неясно, как вы видите архитектуру энкодера, который хотели бы обучить. Опишите, пожалуйста, подробнее предлагаемую вами схему.

kovserg 17 ноя 2021 в 11:51

В результате обучения модель по входным данным должна получить что-то на выходе.

Например секретные данные (username,password). Что мешает обучить модель выдавать по входному username выходной password? И модель может быть избирательной в части обучения например не релевантные username не рассматривать для ускорения процесса.

sergeygolytsin 20 ноя 2021 в 11:48

Кажется, вы не совсем правильно понимание термин «секреты». Как указано в тексте, «секреты» это не секретные данные (как вы пишете user/pwd), а представление целых чисел (а по МPC все числа переводятся в такой формат) в виде разности двух целых чисел. При этом только одно из двух передается на другой сервер для вычислений. Поскольку каждое число может быть бесконечным количеством способов представлено в виде разности двух чисел (а нашем случае есть ограничение по типу числа), то передаваемые данные сам по себе бессмысленны без своей пары. А значит, и декодировать только одно из них не имеет смысла.

iamwizard 21 ноя 2021 в 17:52

А что мешает компании "Б" обучить две модели - одну нормальную, и вторую искаженную. Нормальную оставить себе и в сумме с моделью, полученной от компании "А" получать валидный результат. А вот в ответ компании "А" отдать искаженную модель?

neodavinchi 22 ноя 2021 в 07:00

Присоединяюсь к вопросу.

Описанный алгоритм опирается на веру в добросовестность партнёра?
Или всё же есть рабочие способы проверить полученные исходные данные на корректность?

sergeygolytsin 24 ноя 2021 в 13:07

Мы в ходе экспериментов детально не прорабатывали данный вопрос. Кажется, что расчет описательных статистик используемых данных можно реализовать перед обучением не нарушая конфиденциальность данных и даже без MPC.

sergeygolytsin 24 ноя 2021 в 13:06

Текущая реализация процесса обучения предполагает синхронное обучение моделей на стороне обоих партнеров. Причем после построения процесс пересылки обученных «половинок» итоговой модели происходит автоматически по алгоритму, прописанному в самой реализации библиотеки по MPC. Поэтому нельзя сделать какую- то свою «половинку» и использовать ее вместо той, что получилась в процесс обучения по MPC.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий