具有成本效益的长期视频和图像数据存档?约 50 TB

hpy*_*hpy 16 backup storage archive

我的实验室正在为我们小组正在进行的项目设置一个小型服务器,该服务器保存数据(主要是视频和图像数据,以及一些文档)。从历史上看,在一个研究项目结束后,数据最终会被随意地存档在一个硬盘驱动器中,或一大堆 DVD(或过去的 CD)中,和/或一些视频最终被保存在 Sony DV 磁带中,甚至VHS 磁带(该实验室自 90 年代初以来一直活跃),或以上所有内容的混合...

问题:(1) 将它们全部整合到相同格式和存储介质中的最佳方法是什么,以及 (2) 长期存档此类数据以供偶尔访问(例如 30 多年?)的最佳介质是什么?不幸的是,我们没有企业级预算(我们只是一个约 10 人的实验室),因此无法做花费数十万美元的事情。

谢谢!

PS 考虑到我们的旧视频和图像的分辨率较小,但最近的分辨率很大,我认为我们谈论的是真正旧数据的 30~40 TB,最近数据的另外 10~20 TB,然后每年增加约 5 TB .

sys*_*138 22

不幸的是,没有最适合您的方法。数字媒体的 30 年存档是一个非常困难的问题,需要常规投资。大约 30 年内唯一能保证可读的格式是 ASCII 和 UTF8,它们不是视频格式。存储格式发生变化,我们 30 年前使用的 8 轨卷对卷磁带如今几乎无法读取,即使数据仍在磁带上(有一个有趣的故事,关于 NASA 重建一个 40 年前的磁带驱动器)获取一些新恢复/发现的 Apollo 数据磁带)。您最好的选择是定期(我会说每 5 年)对您的档案环境进行评估,并有足够的预算将旧格式转换为新格式。

您可能比我更了解,但视频领域正在迅速变化。现在可以进行实时在线编辑,即使在 10 年前,它也只能在非常好的套件上进行。谁知道 30 年后情况会如何。

  • 将您的存档窗口设置为 5 年。
    • 在短期内,一个较大的存储阵列就足够了(
      • 大而慢的 50TB 磁盘的价格低于 7 万美元,甚至可能更低。
      • 一个 LTO5 磁带驱动器和 50 个磁带(价值超过 50TB)的价格不到 15,000 美元。
  • 您存储视频的格式取决于您。
  • 开始查找所有旧东西并将其转换为这个新存储。
  • 在 5 年结束时,再次对您的档案环境进行全面评估。
    • 你使用什么格式?
    • 什么是较新的格式?
    • 哪些编解码器似乎是死胡同,您以这种方式存储了哪些媒体编码?
    • 决定您将如何迁移到更新的存储方法(数据格式、磁盘/磁带/其他),并适当地花费。
  • 重复6次。

那应该能让你活到 30 岁。

  • +1 表示复制的优点,但 -1 表示格式将变得不可读。一旦数据在可复制介质上可用,除非它们的格式非常奇怪,否则这些文件不太可能无法播放。归档到诸如 MPEG2 之类的非常主流的格式极有可能是一种持久的格式。转码有损视频是一个有损过程。不应该这样做。保持主流视频编解码器不会花费我们太多... (6认同)

Cho*_*er3 11

我完全同意 sysadmin1138 的帖子,但有一个警告——我认为你不会有足够的预算来真正实现你想要的。

您需要创建 5 个主要功能;

  • 标准化的内容和目录策略 - 我知道您想以一种格式存储所有内容,但您确实应该考虑两种格式 - 用于图像的 PDF 和用于视频的 H.264 - 两者都是具有多平台代码的长期支持格式,几乎可以仅仅由于世界各地的现有用法,肯定会以目前的形式得到一方或另一方的支持 25-50 年。
  • 用于索引和发布内容的目录或 CMS。
  • 一个“内容摄取”系统——这将获取您的所有媒体、打包、编码、存储和更新每个新内容的目录。您还需要进行手动或自动内容质量检查。
  • 主要内容存储 - 这将有两个主要存储块;一个小块在被转码/检查时保存原始内容,一个更大的块来保存“附近”的内容。这是我遇到的 RAID 6 的唯一有效用途之一,但尝试使用具有 24x365“占空比”的企业级磁盘。
  • 长期备份系统 - 这是真正花钱的地方,您需要选择真正提供长期备份功能的供应商。如果我现在这样做,我仍然会纯粹出于数据寿命的原因而使用磁盘上的磁带,也许是 IBM,因为他们在这方面拥有丰富的经验。您还需要考虑到您还需要定期进行磁带恢复和数据验证,这意味着您需要至少与您拥有的最大磁带一样大的第三个存储块 - 当然也需要验证系统。最重要的是,您需要确保您使用的备份软件也将存在很长时间,例如 *nix 上的 TAR 可能会存在一段时间,但它可能无法在功能上为您提供所需的功能确保您的磁带供应商不会忽视这一点。

所以你想做的事情可以做,在过去的二十年左右的时间里,我自己已经做过很多次了——但恐怕没有一个是便宜的。

祝你好运。

  • 老实说,任何类型的 CMS 系统的困难在于它可能是系统的第一个也是最过时的部分。您最好要求每个人都编写一个带有一些基本描述的 ASCII 文本文件,并将其与原始数据一起存储。任何 CMS 或自动化系统都会在几年内老化。 (2认同)