我有一个AWS RDS(AuroraDB),我想屏蔽数据库上的数据。亚马逊是否提供任何数据屏蔽服务?
我已经看过RDS加密,但是我正在寻找数据屏蔽,因为数据库包含敏感数据。所以我想知道他们是否提供用于数据屏蔽的任何服务,或者是否可以使用其他工具来屏蔽数据并将其手动添加到数据库中?
如果有针对我的案例的工具,则最好使用可用于数据屏蔽的工具列表。因为我需要掩盖这些数据以进行测试,因为原始数据库包含敏感信息,例如PII(个人身份信息)。我还必须将这些数据传输给我的同事,因此我认为数据屏蔽是一个重要因素。
谢谢。
这是一个很棒的问题,我认为很多人都应该注意您积极主动地保护企业最有价值资产的方法,特别是当您与同事共享数据时。让人们只看到他们需要看到的内容无疑是减少攻击面的好方法。在我看来,标准的网络安全方法已经不够了,大量的攻击/人们丢失带有敏感数据的笔记本电脑/USB就证明了这一点。我们毕竟只是人类。随着 GDPR 于明年 5 月生效,任何在欧盟拥有客户的公司都必须通过设计来证明隐私,而屏蔽等匿名技术被认为是证明这一点的方法。
注意:我对此答案有既得利益,因为我正在开发您正在谈论的此类服务。
我们发现,根据您的具体用例,数据集的大小和内容将取决于您的屏蔽方法。如果您的数据集具有最少的字段并且您知道 PII 的位置,则可以运行标准查询来替换敏感值。即约翰 -> XXXX。如果您想保持一定的人类可读性,可以使用Python 的 Faker等库生成基于随机区域设置的 PII,您可以用它替换敏感值。(PHP Faker、Perl Faker 和 Ruby Faker 也存在)。
免责声明:直接屏蔽并不能保证完全隐私。想象一下有人通过与带有时间戳的 IMDB 数据交叉引用来从屏蔽的 Netflix 数据集中识别个人,或者卫报记者从屏蔽的 ISP 数据中识别法官的色情偏好。
随着您的数据集在字段/表中增加,并且您可能希望为不同的同事设置不同级别的访问权限,屏蔽确实会变得乏味。即数据科学获得轻度匿名数据,营销获得高度匿名数据。自由文本字段中的 PII 很烦人,而且通常了解攻击者可以用来交叉引用的可用数据是一项艰巨的任务。
我正在开发的服务旨在通过使用 NLP 技术实现流程自动化以及对匿名化数学的深入理解来缓解所有这些问题。我们正在将其捆绑到一个 Web 服务中,并且我们热衷于在 AWS 市场上发布。因此,我很想了解更多有关您的用例的信息,如果您想提前访问,我们目前处于私人测试阶段,请告诉我。