Как стать автором
Обновить

Влад Грозин о PhD в США, философии в Data Science, пузыре рекомендаций и голодающих геймерах

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.6K
Всего голосов 18: ↑17 и ↓1+17
Комментарии2

Комментарии 2

В истории с Netflix, как я понял, главная проблема в том, что они выложили данные в общий доступ. Если бы данные были доступны только сотрудникам под NDA, то иск бы прилетел уже девушке, от Neflix. Наверное, создание синтетических данных актуально именно для конкурсов...

Интересно как эта история переносится на современные реалии, где по GPDR сервис обязан выдать данные в машиночитаемом виде владельцу аккаунта. Там по идее так же получилось бы вычислить изменяющего парня.

Не вижу, чем это принципиально отличается от случая с Netflix, ведь хоть данные и в общем доступе, узнать данные конкретной девушки можно только зная "ключ" в виде её просмотров и оценок, то есть нужно быть тоже владельцем аккаунта в каком-то роде. Человек без доступа к аккаунту не сможет деанонимизировать данные.

Достаточно было зашифровать ещё и фильмы. Синтетические данные дадут синтетическую ценность в данном случае.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий