Jed*_*edi 4 amazon-s3 deduplication azure
任何商业 IaaS 对象存储(S3、Azure Blob 等)是否避免因存储重复数据(相同文件或部分文件)而多次收费?例如,我们有一个 15 TB 的推文数据集,我们的一个团队想要制作一份副本,然后对数据进行一些修改。我们需要为 30 TB 的存储付费吗?
有没有一种好方法可以在这些大型对象存储上查找重复块,或者就地压缩大型数据集?我们可以用某种符号链接替换重复的文件吗?
存储提供商(至少 AWS、Google 和 Microsoft)不会对 blob 对象进行重复数据删除和/或压缩。这会导致不可预测的延迟、抖动增加以及 RAM 消耗增加。并不是说在这种情况下不可能实施良好的计费策略,并且跨多个服务器/可用区删除重复对象是一个巨大的技术挑战。
您可以在您的一端实施压缩。重复数据删除比较困难,因为您需要维护带有哈希表等的中间件。
另一种方法可能是在 EC2 实例上使用ZFS而不是 S3。您可以附加 EBS 卷并将其挂载为 ZFS 卷,并且 ZFS 具有内置的压缩和重复数据删除功能。如果您需要多个 EC2 实例上的这些文件/对象,您始终可以将 ZFS 作为 NFS 共享导出和导入。重复数据删除再次需要额外的 RAM。
您可以使用现场重复数据删除,这可以通过某些备份解决方案执行,例如Veeam https://www.veeam.com/hyper-v-vmware-backup-deduplication-compression.html,并将重复数据删除的数据推送到云端,从而节省网络带宽。它非常有用,尤其是在及时恢复至关重要的情况下。
我们的生产 atm 中运行着大量虚拟机,并使用 Veeam 和 Starwind,所以我认为这是一个类似的情况。还测试了其他解决方案,例如 MS DPM 和 Backup Exec,但 Veeam 显示了更好的结果。
| 归档时间: |
|
| 查看次数: |
4201 次 |
| 最近记录: |