在r中混淆群集数据并保护隐私的技术

Question

背景

我有一些私人调查数据,其中包含一列机密信息:调查受访者的地理位置.在任何情况下都不能发布此信息.

在调查研究中很常见,为了让用户正确计算我的调查数据集的方差,这些用户要么需要该地理位置(不可接受),要么需要一组重复权重.我可以创建那组重复权重; 然而,很容易看到这些权重之间的相关性并反向计算哪些调查受访者共享相同的地理位置.这也是不可接受的.

为了帮助我解决这个问题,您不必熟悉replicate weights- 只需将它们视为强相关聚类数据的几列.

据我所知,如果我想维持这种聚类,一个邪恶的数据用户总是会对谁分享地理位置进行半决定的猜测; 我只是想让猜测游戏不那么精准.对于未混淆的重复权重,恶意数据用户可以找出100%的案例.

请求

我正在寻找一种技术

我说共享是因为邪恶的用户可能不知道位置在哪里,但他们可能知道两个调查受访者是否来自同一地点 - 这是一种不可接受的可能性.

我试过的

我真的不想在这里重新发明轮子.我正在寻找r语法,r包或其他任何相对简单的实现方法.我发现一篇,两篇,三篇,四篇论文描述的技术都适合我的目的; 遗憾的是,没有一个作者愿意分享实际代码来实现它们.

我可以做一些简单的事情,比如根据正态分布在我的复制权重列中添加和减去随机值,但我更愿意依赖于比我更了解隐私问题的人的工作.

谢谢!!!!

Answer 1

我编写了这个九步教程来逐步完成整个过程，试图回答我自己的问题。我不是隐私/保密领域的专家，很想听到有关此想法和其他想法的反馈。谢谢！