IaaS 对象存储 (S3/Azure Blob) 上的重复数据删除和成本节省

Question

IaaS 对象存储 (S3/Azure Blob) 上的重复数据删除和成本节省

Jed*_*edi 4 amazon-s3 deduplication azure

任何商业 IaaS 对象存储（S3、Azure Blob 等）是否避免因存储重复数据（相同文件或部分文件）而多次收费？例如，我们有一个 15 TB 的推文数据集，我们的一个团队想要制作一份副本，然后对数据进行一些修改。我们需要为 30 TB 的存储付费吗？

有没有一种好方法可以在这些大型对象存储上查找重复块，或者就地压缩大型数据集？我们可以用某种符号链接替换重复的文件吗？

Answer 1

Ser*_*lev 5

存储提供商（至少 AWS、Google 和 Microsoft）不会对 blob 对象进行重复数据删除和/或压缩。这会导致不可预测的延迟、抖动增加以及 RAM 消耗增加。并不是说在这种情况下不可能实施良好的计费策略，并且跨多个服务器/可用区删除重复对象是一个巨大的技术挑战。

您可以在您的一端实施压缩。重复数据删除比较困难，因为您需要维护带有哈希表等的中间件。

另一种方法可能是在 EC2 实例上使用ZFS而不是 S3。您可以附加 EBS 卷并将其挂载为 ZFS 卷，并且 ZFS 具有内置的压缩和重复数据删除功能。如果您需要多个 EC2 实例上的这些文件/对象，您始终可以将 ZFS 作为 NFS 共享导出和导入。重复数据删除再次需要额外的 RAM。

我很确定他们不会在幕后使用重复数据删除。在分布式环境中会增加延迟，这与 AWS 的目标完全相反。当我建议“增加 RAM 消耗”时，我指的是 AWS 服务器，而不是 EC2 实例。EC2 实例仅在使用其自己的重复数据删除解决方案（例如 ZFS 或 StorReduce）时才会面临 RAM 消耗。 (2认同)

Answer 2

Str*_*ils 5

您可以使用现场重复数据删除，这可以通过某些备份解决方案执行，例如Veeam https://www.veeam.com/hyper-v-vmware-backup-deduplication-compression.html，并将重复数据删除的数据推送到云端，从而节省网络带宽。它非常有用，尤其是在及时恢复至关重要的情况下。

我们的生产 atm 中运行着大量虚拟机，并使用 Veeam 和 Starwind，所以我认为这是一个类似的情况。还测试了其他解决方案，例如 MS DPM 和 Backup Exec，但 Veeam 显示了更好的结果。

归档时间：	9 年，6 月前
查看次数：	4201 次
最近记录：	9 年，5 月前