Amazon Glacier 是否适合存档数字媒体内容?

Anu*_*air 1 linux archiving amazon-glacier

背景: 一个内容制作团队以数字媒体格式拍摄和记录内容。这些可以是原始素材、转换后的视频和图像的混合。

这些内容存储在一个共享文件夹(Linux Samba)中,它是 21 TB 的存储空间,几乎已被完全使用。我更愿意让这些内容团队重新组织和清除数据。忽略纪律的需要,我被要求简单地存档。这是有道理的——随着岁月的流逝,无论保持多少纪律,磁盘空间都会变薄。

我们曾在旧领导下使用磁带驱动器进行归档。新的领导层已经停止了这个过程。他们建议将旧内容存档到 Amazon Glacier。

现在,作为存档,内容大小可能约为 2Tb。可能需要拉出旧内容。多频繁?--我们现在还不知道。

无论亚马逊可以提供多少带宽,我所拥有的线最多可以达到 40 mbit/s。此外,我被要求通过某种方式限制速度,以便同一 Internet 连接上的其他人不受传输的影响。

什么都考虑,我应该采取到帐户在冰川上是否适合这种任务的法案的理解到达。

另外,是否有任何 BASH 命令行工具可以将2 Tb+ 档案送到 Glacier Vault ?

Mic*_*bot 5

Glacier 是为您预计可能不需要的数据而设计和定价的。

Glacier 的设计预期检索是不频繁和不寻常的,并且数据将被存储很长时间。

https://aws.amazon.com/glacier/pricing/

我现在有几十 TB 存储在那里,我强烈推荐它——在适当的情况下——所以我的观察不应该被视为消极的,只是强调你需要确保你了解产品及其预期应用。

原生 Glacier 界面非常低级。它的行为有点像备份磁带或大 tarball。您将“档案”放入“保险库”中,它就像一个黑匣子。您必须保留在每个存档中放入的内容的记录,因为 Glacier 无法告诉您,就像物理上查看备份磁带可以告诉您的一样。

另一种——我会断言——使用 Glacier 更好的方法是通过 S3。将您的文件上传到 S3 存储桶,并设置存储桶的生命周期策略,几天后将文件存档到 Glacier。使用此模型,S3 隐藏了原始 Glacier API 的复杂性,并且单个文件及其元数据通过 S3 控制台和 API 保持可见。费用是一样的。

但是,请理解,使用 Glacier(无论是否通过 S3),您需要为一次恢复多于少量数据支付费用。

仔细分析这些数字,您会发现在您存储大量数据之前,恢复的免费限额可能很昂贵。

假设我存储了 180 TB/180000 GB。如果我不想为数据检索支付额外费用,我只能在任何 4 小时窗口中恢复 50 GB。

180000 × 0.05 ÷ 30 ÷ 6 = 50
Run Code Online (Sandbox Code Playgroud)

180000 GB,每月 5% 的津贴,30 天/否,每天 6 次 4 小时。这对我很有用,因为我的文件通常小于 20 GB,而且我很少需要它们。当我这样做时,通常用于不紧迫的研究,以便我可以分散恢复。如果总存储较小,比如 18 TB,我的免费恢复限额将是每 4 小时 5 GB。因此,正如我所说,请仔细考虑恢复定价模型。

S3 提供的相对较新的“不频繁访问”存储类可能更适合。0.0125 美元/GB/月仍然相当合理,虽然下载费用为 0.01 美元/GB,但如果您需要恢复大量数据,成本不会急剧增加,并且没有 4 小时的等待时间,就像冰川一样恢复。

https://aws.amazon.com/blogs/aws/aws-storage-update-new-lower-cost-s3-storage-option-glacier-price-reduction/

  • 这是一个很好的答案,避免了问题本身的主观性。它提出了 Glacier 的用途,提供对服务的公平评估,并为恢复困境提供调解。 (2认同)