AWS:在将S3文件备份到Glacier的同时降低成本的方法?

I Z*_*I Z 11 amazon-s3 amazon-ec2 amazon-glacier

作为我们项目的一部分,我们在S3上创建了一个非常浓密的文件夹/文件树,所有文件占用了大约6TB的数据.我们目前没有这些数据的备份,这是不好的.我们想定期备份.看起来像冰川是要走的路.

问题是:保持备份总成本的方法是什么?

我们的大多数文件都是文本,因此我们可以压缩它们并上传整个ZIP存档.这将需要处理(在EC2上),所以我很好奇是否有任何经验法则来比较运行EC2实例以进行压缩而不仅仅是上传未压缩文件的额外成本.

此外,我们将不得不为数据传输付费,所以我想知道除了(i)从S3下载文件到实例之外是否有任何备份方式; (ii)以原始形式上传文件或将其压缩至Glacier.

Eri*_*ond 21

我通常认为Glacier是S3 的替代存储,而不是额外的存储.即,数据通常存储在S3或Glacier中,但很少存储在两者中.

如果您信任S3公布的11个耐久性9,那么您就不会备份,因为S3本身可能会丢失数据.

您可能想要备份数据,因为(就像我一样)您将亚马逊帐户视为单点故障(例如,凭据遭到入侵或亚马逊阻止您的帐户,因为他们认为您正在做一些滥用行为).但是,在这种情况下,Glacier不是一个足够的备份,因为它仍然属于亚马逊的保护伞.

如果您担心由于用户错误,凭据泄露等原因导致S3中的数据丢失,我建议您在亚马逊以外备份S3数据.

我建议您使用Glacier作为存档数据的地方,以便在您知道自己不需要访问它时进行长期,廉价的存储,如果有的话.当事物转移到Glacier时,您将从S3中删除它们.

亚马逊提供从S3到Glacier的自动存档,效果很好,但如果文件的平均大小很小,请注意额外的费用.这是我写的一篇关于危险的文章:

将S3对象转换为冰川的成本
http://alestic.com/2012/12/s3-glacier-costs

如果您仍想从S3复制到Glacier,以下是与您的问题相关的一些要点:

  • 您可能会将数据长时间保留在Glacier中,因此压缩它可能值得短期使用CPU.确切的权衡取决于诸如数据的可压缩性,压缩所需的时间以及执行压缩所需的频率等因素.

  • 将数据从S3下载到EC2实例是免费的.将数据上传到Glacier没有数据传输费用.

  • 如果您将许多小文件上传到Glacier,则每件商品的上传费用会相加.您可以通过将许多小文件组合到一个存档中并上传它来节省成本.

另一个可以帮助防止因用户错误或攻击造成的意外丢失的S3功能是打开S3版本并启用MFA(多因素身份验证).这可以防止任何人永久删除对象,除非他们拥有凭据和您拥有的物理设备.

  • 就像IZ一样,我觉得到目前为止,造成灾难性数据丢失的最可能原因是我的错误.意外删除存储桶,或运行执行相同操作的脚本.在这种情况下,在冰川中复制可提供安全网. (7认同)
  • 埃里克,谢谢你的详细解答.我想要做备份的主要原因是,现在我们团队的任何成员 - 包括研究生,教授,专业软件开发人员和其他人 - 可能会在一次错误的移动中意外删除S3上的整个数据子树("删除文件夹").但也许答案就是做一些你在答复底部描述的内容. (3认同)