应该使用什么介质进行长期、大容量的数据存储(归档)?

use*_*723 67 backup storage archiving

这个问题的灵感来自https://superuser.com/questions/374386/how-to-store-and-preserve-lots-of-data。还有其他类似的问题,但没有一个具有相同的标准。

这是两个问题合二为一。

  1. 您如何存储财务/关键记录,这些记录应该可以在火灾之外幸存下来,并且应该可以使用几十年?
  2. 假设我想存储家庭照片/视频,并希望人们能够在 100 年后在存储中找到它们并且仍然能够使用它们。这将如何完成?

标准

  1. 长期意味着保证30 年以上。平均 100 多年。[如果这不切实际,请使用最接近的解决方案]
  2. 高容量意味着几个 TB。
  3. 答案可以是“不妥协/工业”解决方案或适用于家庭办公室/小型企业用户的实用解决方案。
  4. 媒体在时间跨度内不会处于活动状态。(即,如果您建议使用硬盘驱动器,它们将不会旋转)。
  5. 此外,不需要阅读这些档案。他们在那里是为了紧急情况或“为了后代”的目的。
  6. 不应该需要维护(如果可能的话)。

我的想法:

  1. CD-R/DVD-R 已向我证明,即使在短期内,也是一种糟糕的备份介质。它们似乎非常脆弱,即使在原始状态下也会在很短的时间内丢失数据。
  2. 我不禁认为将数据存储在几个 1TB 硬盘上,然后期望它们在十年或两年后正确启动是一个糟糕的主意。我错了吗?
  3. 工业磁带机似乎是一个可行的选择?

gab*_*ous 84

简答

由于熵(也称为死亡!),不可能保证很长的时间范围。数字数据会衰减和消亡,就像宇宙中的任何其他事物一样。但它可以放慢速度。

目前没有防故障和科学证明的方法来保证 30 多年的冷数据存档。一些项目旨在做到这一点,例如Long Now 博物馆Rosetta Disks 项目,尽管它们仍然非常昂贵且数据密度较低(约 50 MB)。

同时,您可以使用经过科学验证的弹性光学介质进行冷存储,例如松下的蓝光光盘 HTL 类型,或 Verbatim Gold Archival 等档案级 DVD+R,并将它们保存在密封的盒子中,放在柔软的地方(避免高温)并避光。

也是冗余的:制作多个数据副本(至少 4 个),并计算散列以定期检查一切是否正常,每隔几年您应该在新磁盘上重写数据。此外,使用大量纠错码,它们将允许您修复损坏的数据!

长答案

为什么数据会随着时间而损坏?答案就在一个词里:。这是宇宙的主要和不可避免的力量之一,它使系统在时间上变得越来越不有序。数据损坏就是这样:位序无序。所以换句话说,宇宙讨厌你的数据

对抗熵就像对抗死亡:你永远不可能成功。但是,你可以找到减缓死亡的方法,就像你可以减缓熵一样。您还可以通过修复损坏来欺骗熵(换句话说:您无法阻止损坏,但如果您事先采取措施,您可以在损坏发生后进行修复!)。就像任何关于生与死的事情一样,没有灵丹妙药,也没有万能的解决方案,最好的解决方案要求您直接参与数据的数字化管理。即使您正确地做所有事情,也不能保证您的数据安全,您只能最大限度地提高机会。

现在好消息是:现在有非常有效的方法来保存您的数据,如果您高质量的存储介质和良好的存档/管理策略结合起来:您应该为失败而设计

什么是好的策展策略?让我们弄清楚一件事:您将找到的大部分信息都与备份有关,而不是关于存档。问题是大多数人会将他们关于备份策略的知识转移到存档中,因此现在人们普遍听到了很多神话。实际上,将数据存储几年(备份)和将数据存储尽可能长的时间至少跨越几十年(归档)是完全不同的目标,因此需要不同的工具和策略。

幸运的是,有相当多的研究和科学成果,所以我建议参考这些科学论文,而不是在论坛或杂志上。在这里,我将总结我的一些阅读。

此外,要警惕声称和非独立科学研究,声称这样或那样的存储介质是完美的。记住著名的 BBC 世界末日计划:«数字世界末日书持续 15 年而不是 1000 年»。总是用真正独立的论文仔细检查研究,如果没有,总是假设存储介质不适合存档。

让我们澄清你在寻找什么(从你的问题):

  • 长期存档:您希望保留合理的、不可复制的“个人”数据的副本。存档从根本上不同于备份,正如这里所解释的:备份用于定期更新的动态技术数据,因此需要刷新到备份中(即操作系统、工作文件夹布局等),而存档是静态数据,你可能会写一次,只是读取时间到时间档案用于临时数据,通常是个人数据

  • 冷存储:您希望尽可能避免维护存档数据。这是一个很大的限制,因为这意味着媒体必须使用可以长时间保持稳定的组件和写作方法,无需您进行任何操作,也无需连接到计算机或电源。

为了简化我们的分析,让我们先研究冷藏解决方案,然后再研究长期归档策略。

冷存储介质

我们在上面定义了一个好的冷存储介质应该是什么:它应该在不需要任何操作的情况下长时间保留数据(这就是它被称为“冷”的原因:您可以将其存储在壁橱中,而无需将其插入一台计算机来维护数据)。

似乎是地球上最有弹性的存储介质,因为我们经常会发现非常古老的古代手稿。然而,纸有一个主要的缺点:首先,数据密度非常低(即使有微小的字符和计算机工具,在纸上也不能存储超过 100 KB 的数据),而且随着时间的推移它会退化,没有任何方法可以监控它:纸,就像硬盘驱动器一样,遭受无声损坏。但是,虽然您可以监控数字数据上的无声损坏,但您不能在纸上进行监控。例如,你不能保证一张图片在十年内会保持相同的颜色:颜色会退化,你无法找到原始颜色。当然,你可以策划 如果您是图像修复专业人士,您的照片,但这是非常耗时的,而使用数字数据,您可以自动执行此管理和修复过程。

硬盘驱动器(HDD)已知的,以具有3至8岁的平均寿命:他们不只是随着时间的推移,他们保证最终死亡(即:无法访问)。以下曲线显示了所有 HDD 以惊人速度死亡的趋势:

浴缸曲线显示给定错误类型的硬盘故障率的演变(也适用于任何工程设备):

曲线-hdd1

显示硬盘故障率的曲线,所有错误类型合并: 曲线-hdd2

来源:Backblaze

你可以看到硬盘的故障有3种类型:快速死亡的(例如:制造错误,质量差的硬盘,磁头故障等),恒定的死亡率(良好的制造,它们因各种原因而死亡)正常”的原因,大多数硬盘都是这种情况),最后是健壮的硬盘,它们的寿命比大多数硬盘长一点,最终在“正常硬盘”之后很快就死了(例如:幸运的硬盘,不太常用,理想的环境条件等)。因此,你可以保证你的硬盘会死。

为什么 HDD 经常死掉?我的意思是,数据写在磁盘上,磁场可以持续几十年才消失。它们死掉的原因是因为存储介质(磁盘)和读取硬件(电子板+旋转磁头)是耦合的:它们不能分离,你不能只提取磁盘并用另一个磁头读取它,因为首先几乎每个HDD的电子板(将物理数据转换为数字)都是不同的(即使是相同品牌和参考,也取决于原厂),并且带有纺丝头的内部机制如此复杂,以至于现在不可能让人类完美地将旋转头放在磁盘上而不会杀死它们。

此外,众所周知,如果不使用HDD (包括 SSD),它会随着时间消磁。因此,您不能仅仅将数据存储在硬盘上,将其存储在壁橱中,并认为它会在没有任何电气连接的情况下保留数据:您需要每年或每几年至少将 HDD 插入电源。因此,HDD 显然不适合冷存储。

磁带:它们通常被描述为备份需求的首选,并扩展为存档。磁带的问题在于它们非常敏感:磁性氧化物颗粒很容易被阳光、水、空气、划痕损坏,被时间或任何电磁设备消磁,或者随着时间的推移而脱落,或印刷。这就是为什么它们通常只由专业人士在数据中心使用。此外,从未证明他们可以将数据保留超过十年。那么,为什么他们经常被建议进行备份?因为它们曾经很便宜:在过去,使用磁带的成本比 HDD 便宜 10 到 100 倍,而且 HDD 的稳定性往往比现在低得多。因此,出于成本效益的考虑,主要建议使用磁带进行备份,不是因为弹性,这是我们在归档数据时最感兴趣的。

众所周知,CompactFlash 和安全数字 (SD) 卡非常坚固耐用,能够承受灾难性的条件

Digital Camera Shopper 杂志发现,大多数相机中的存储卡实际上是坚不可摧的。五种存储卡格式在煮沸、践踏、洗涤和浸泡在咖啡或可乐中后幸存下​​来。

然而,与任何其他基于磁性的介质一样,它依靠电场来保留数据,因此如果卡的汁液耗尽,数据可能会完全丢失。因此,它不适合冷存储(因为您需要偶尔重写卡上的整个数据以刷新电场),但它可以成为备份和短期或中期存档的良好媒介。

光介质:光介质是一类依靠激光读取数据的存储介质,如CD、DVD或蓝光(BD)。这可以看作是纸张的进化,但我们以非常小的尺寸写入数据,因此我们需要一种比纸张更精确、更有弹性的材料,而光盘正是如此。光学介质的两个最大优点是存储介质与读取硬件分离(即,如果您的 DVD 阅读器出现故障,您可以随时购买另一个来读取您的磁盘)以及它基于激光,这使得它具有通用性和面向未来(即,只要您知道如何制造激光,您就可以随时调整它以通过仿真读取光盘的位,就像CAMILEON 为 Domesday BBC Project 所做的那样)。

与任何技术一样,新迭代不仅提供更大的密度(存储空间),而且还提供更好的纠错能力,以及更好地抵御环境衰减(并非总是如此,但通常如此)。关于 DVD 可靠性的第一场争论是在 DVD-R 和 DVD+R 之间,即使 DVD-R 现在仍然很普遍,但 DVD+R 被认为更可靠精确。现在有档案级 DVD 光盘,专门用于冷藏,声称它们可以承受至少约 20 年而无需任何维护:

Verbatim Gold Archival DVD-R [...] 在备受推崇的德国 c't 杂志(c't 16/2008,第 116-123 页)的彻底长期压力测试中被评为最可靠的 DVD-R ) [...] 实现最低 18 年的耐用性和 32 至 127 年的平均耐用性(在 25C、50% 湿度下)。没有其他光盘接近这些值,第二好的 DVD-R 的最低耐用性仅为 5 年。

来自 LinuxTech.net

此外,一些公司专门从事非常长期的 DVD 存档并广泛销售它们,例如 Millenniata 的 M-Disc 或 DataTresorDisc,声称他们可以将数据保留 1000 多年,并通过一些(非独立)研究(来自2009 年)在不那么科学的其他人中

这一切似乎很有希望!不幸的是,没有足够的独立科学研究来证实这些说法,少数可用的研究并不那么热情:

湿度 (80% RH) 和温度 (80°C) 在超过 2000 小时(约 83 天)的测试中加速老化,并定期检查数据的可读性: 几个 DVD 品牌的湿度和温度加速老化

翻译自法国数字数据档案机构(Archives de France),2012年研究。

第一张图显示了具有缓慢退化演变的 DVD。第二张具有快速退化曲线的 DVD。第三个是特殊的“非常长期”的 DVD,如 M-Disc 和 DataTresorDisc。正如我们所看到的,它们的性能并不完全符合要求,低于或与标准的非存档级 DVD 相当!

然而,无机光盘如 M-Disc 和 DataTresorDisc 有一个优势:它们对光衰减非常不敏感:

在 240 小时内使用光 (750 W/m²) 加速老化: 几个 DVD 品牌的光加速老化

这些都是很好的结果,但是像 Verbatim Gold Archival 这样的档案级 DVD 也达到了同样的性能,而且,光是物体最可控的参数:很容易将 DVD 放入封闭的盒子或壁橱中,因此消除任何可能的光影响。获得对温度和湿度非常敏感的 DVD 比光更有用。

同一个研究团队还研究了蓝光市场,看看是否有任何品牌具有长期冷藏的良好介质。这是他们的发现:

几个蓝光品牌的湿度和温度加速老化,参数与 DVD 相同: 温度-BD

几个蓝光品牌的光加速老化,相同的参数: 光bd

翻译自 2012 年法国档案馆的这项研究。

此处此处所有调查结果的两个摘要(法文)。

总的来说,最好的蓝光光盘(来自松下)在湿度 + 温度测试中的表现与最好的档案级 DVD 相似,同时几乎对光不敏感!这张蓝光光盘甚至不是档案级。此外,蓝光光盘使用比 DVD 增强的纠错代码(它们本身使用相对于 CD 的增强版本),这进一步降低了丢失数据的风险。因此,似乎某些蓝光光盘可能是一个非常好的冷存储选择。

事实上,一些公司开始致力于档案级、高密度存储蓝光光盘,如松下和索尼,宣布他们将能够提供 300 GB 到 1TB 的存储空间,平均寿命为 50 年。此外,大公司正在将自己转向用于冷存储的光学介质(因为它消耗的资源少得多,因为您可以在没有任何电源的情况下对其进行冷存储),例如Facebook 开发了一种机器人系统,将蓝光光盘用作“冷存储”。存储”用于他们的系统很少访问的数据。

Long Now 档案计划:还有其他有趣的线索,例如Long Now 博物馆Rosetta Disc 项目,这是一个项目,该项目以创世纪被翻译成的地球上的每种语言编写创世记的微观比例页面。这是一个伟大的项目,它是第一个提供允许存储 50 MB 的介质以进行非常长期的冷存储(因为它是用碳编写的),并且具有面向未来的访问,因为您只需要一个放大镜即可访问数据(没有奇怪的格式规范,也没有处理技术上的麻烦,例如蓝光的紫光光束,只需要一个放大镜!)。然而,这些仍然是手工制作的,因此估计成本约为 2 万美元,我猜这对于个人档案计划来说有点太多了。

基于互联网的解决方案:另一种冷存储数据的媒介是通过网络。然而,云备份解决方案并不适合,因为云托管公司的主要关注点可能不会像您希望保留数据那样长久。其他原因包括备份速度非常慢(因为它通过互联网传输),并且大多数提供商要求您的系统上也存在这些文件以保持它们在线。例如,CrashPlan 和 Backblaze 都会永久删除过去 30 天内至少在您的计算机上没有看到过的文件,因此如果您想上传仅存储在外部硬盘驱动器上的备份数据,则必须插入您的计算机USB HDD 每月至少一次,并与您的云同步以重置倒计时。然而,一些云服务可以无限期地保留您的文件(当然只要您付费),而无需倒计时,例如 SpiderOak。因此,请务必注意您选择的基于云的备份解决方案的条件和使用情况。

云备份提供商的另一种选择是在线租用您自己的私人服务器,如果可能的话,选择一个自动镜像/备份您的数据,以防他们的硬件出现故障(有些甚至保证您不会在他们的合同中丢失数据,但当然更贵)。这是一个很好的解决方案,首先因为您仍然拥有自己的数据,其次因为您不必管理硬件故障,这是您的主机的责任。如果有一天你的主机倒闭了,你仍然可以取回你的数据(选择一个严肃的主机,这样他们就不会在一夜之间关机,而是提前通知你,也许你可以要求把它写进合同),并在其他地方重新托管。

如果您不想为设置自己的私人在线服务器而烦恼,并且如果您负担得起,亚马逊会提供一种新的数据归档服务,称为Glacier。目的正是长期冷存储您的数据。它为每个存档每年提供 11 个 9 的耐用性,这与他们的其他 S3 产品相同,但价格要低得多。问题是检索不是免费的,可能需要几分钟(从 Glacier Archive 的标准检索)到 48 小时(从 Glacier Deep Archive 的批量检索)。

冷存储的缺点:然而,任何冷存储介质都有一个很大的缺陷:没有完整性检查,因为冷存储介质不能自动检查数据的完整性(它们只能实施纠错方案来“治愈”一点损坏后的损坏发生,但无法防止或自动管理!)因为,与计算机相反,没有处理单元来计算/记录/检查和更正文件系统。而对于一台计算机和多个存储单元,如果数据存档中发生某些损坏(只要您有同一个存档的多个副本),您可以自动检查存档的完整性并在必要时自动镜像到另一个单元。

长期存档

即使采用目前最好的技术,数字数据也只能冷存储几十年(大约 20 年)。因此,从长远来看,您不能仅仅依赖冷存储:您需要为您的数据归档过程设置一种方法,以确保您的数据在未来可以被检索到(即使发生技术变化),并将风险降至最低丢失数据。换句话说,您需要成为数据的数字管理员,在损坏发生时进行修复,并在需要时重新创建新副本。

没有万无一失的规则,但这里有一些既定的策展策略,特别是一个神奇的工具,可以让您的工作更轻松:

  • 冗余/复制原则冗余是唯一可以恢复熵效应的工具,这是一个基于信息论的原则。要保留数据,您需要复制此数据。错误代码正是冗余原则的自动应用。但是,您还需要确保您的数据是冗余的:相同数据在不同磁盘上的多个副本,在不同介质上的多个副本(因此,如果一种介质由于内在问题而出现故障,则不同介质上的其他介质也几乎不会同时出现故障)等。特别是,您应该始终拥有至少 3 个数据副本,在工程中也称为 3 模冗余,以便如果您的副本损坏,您可以通过简单的多数投票来修复您的 3 个副本中的文件。永远记住水手的指南针建议:

带两个圆规是没有用的,因为如果一个错了,你永远不知道哪一个是对的,或者两个都错了。始终带一个指南针,或多于三个。

  • 纠错码:这是一个神奇的工具,可以让您的生活更轻松,您的数据更安全。纠错码 (ECC) 是一种数学结构,可生成可用于修复数据的数据。这更有效,因为与简单复制(即制作文件的多个副本)相比,ECC 可以使用更少的存储空间修复更多的数据,并且它们甚至可以用来检查您的文件是否有任何腐败,甚至定位那些腐败在哪里. 实际上,这正是冗余原则的应用,但比复制更聪明。这种技术广泛用于当今任何远程通信,例如 4G、WiMax,甚至 NASA 的太空通信。不幸的是,尽管 ECC 在电信中无处不在,但它们不在文件修复中,可能是因为它有点复杂。然而,一些软件是可用的,例如众所周知的(但现在很旧)PAR2、DVD Disaster(它提供在光盘上添加纠错码)和pyFileFixity(我开发的部分是为了克服 PAR2 的限制和问题)。还有一些文件系统可以选择实现 Reed-Solomon,例如适用于 Linux 的 ZFS 或适用于 Windows 的 ReFS,它们在技术上是 RAID5 的概括。

  • 定期检查文件的完整性: 散列你的文件,不时检查它们(即每年一次,但这取决于存储介质和环境条件)。当您发现您的文件遭到损坏时,是时候使用您生成的 ECC 进行修复(如果这样做的话),和/或在新的存储介质上制作新的数据副本。检查数据、修复损坏和制作新的新副本是一个非常好的管理周期,可确保您的数据安全。检查尤其重要,因为您的文件副本可能会被悄悄损坏,如果您随后复制已被篡改的副本,您最终将得到完全损坏的文件。这对于冷存储介质更重要,例如光盘,它不能自动检查数据的完整性(他们已经实施了 ECC 来修复一些,但他们无法自动检查或创建新的新副本,这是您的工作!)。要监视文件更改,您可以使用 rfigc.py 脚本pyFileFixity或其他 UNIX 工具,例如md5deep。您还可以使用Hard Drive Sentinel或开源smartmontools等工具检查某些存储介质(如硬盘驱动器)的健康状态。

  • 将您的档案媒体存储在不同的位置(在您家外至少有一份副本!),以避免发生现实生活中的灾难性事件,如洪水或火灾。例如,您工作中的一张光盘,或基于云的备份可能是满足此要求的好主意(即使云提供商可以随时关闭,只要您有其他副本,您就会很安全,云提供商只会在紧急情况下用作异地存档)。

  • 储存在具有受控环境参数的特定容器中:对于光学介质,储存在避光和防水的盒子中以避免潮湿。对于硬盘和sd卡,请存放在防磁套中,以避免剩余电量篡改驱动器。您也可以储存在气密和防水的袋子/盒子中并储存在冰箱中:低温会减慢熵,并且您可以将任何类似的存储介质的寿命延长很多(只要确保水赢得不要进入里面,否则你的媒介会很快死亡)。

  • 使用质量好的硬件并事先检查它们(例如:当您购买 SD 卡时,使用 HDD Scan 等软件测试整个卡以检查一切是否正常,然后再写入数据)。这对于光驱来说尤其重要,因为它们的质量可以极大地改变您刻录光盘的质量,正如法国档案馆的研究所证明的那样(一个坏的 DVD 刻录机会生产出寿命短得多的 DVD)。

  • 仔细选择您的文件格式:并非所有文件格式都具有抗损坏能力,有些甚至明显很弱。例如,.jpg 图像可以通过仅篡改一两个字节而完全损坏且无法读取。7zip 档案也是如此。这很荒谬,因此请注意存档文件的文件格式。根据经验,简单的明文是最好的,但如果您需要压缩,请使用非固体 zip,对于图像,请使用 JPEG2(尚未开源...)。有关专业数字策展人的更多信息和评论,请点击此处此处此处

  • 将读取数据所需的每个软件和规范与您的数据存档一起存储。请记住,规范变化很快,因此将来您的数据可能不再可读,即使您可以访问该文件。因此,您应该更喜欢开源格式和软件,并将程序的源代码与数据一起存储,以便您始终可以从源代码中调整程序以从新的操作系统或计算机启动。

  • 此处此处和 Internet 的各个部分提供许多其他方法和方法。

结论

我建议使用你可以拥有的,但始终尊重冗余原则(制作 4 个副本!),并始终定期检查完整性(因此您需要预先生成一个 MD5/SHA1 哈希数据库),并创建新的在腐败的情况下复制。如果这样做,从技术上讲,无论您的存储介质是什么,您都可以根据需要保留数据。每次检查之间的时间间隔取决于存储介质的可靠性:如果是软盘,则每 2 个月检查一次,如果是蓝光 HTL,则每 2/3 年检查一次。

现在处于最佳状态,我建议冷藏使用蓝光HTL光盘或存档级 DVD光盘,这些光盘存储在不透水的不透明盒子中并存放在新鲜的地方。此外,您可以使用 SD 卡和基于云的提供商(例如 SpiderOak)来存储数据的冗余副本,如果您更容易访问,甚至可以使用硬盘驱动器。

使用大量的纠错码,它们将节省您的时间。您也可以制作这些 ECC 文件的多个副本(但您的数据的多个副本比多个 ECC 副本更重要,因为 ECC 文件可以自行修复!)。

这些策略都可以使用我正在开发的一组工具(开源)来实现:pyFileFixity。这个工具实际上是通过这个讨论开始的,在发现没有完全管理文件固定性的免费工具之后。此外,请参阅该项目的自述文件和 wiki,了解有关文件固定性和数字管理的更多信息。

最后一点,我真的希望在这个问题上投入更多的研发。这对我们当前的社会来说是一个主要问题,越来越多的数据被数字化,但不能保证这些信息能够存活超过几年。这很令人沮丧,我确实认为这个问题应该更多地放在前面,以便这成为制造商和公司制造可以为子孙后代使用的存储设备的营销点。

/编辑:阅读下面的实用策展程序

  • 优秀的答案!这需要**远**更多的赞成票。 (9认同)
  • 如果没有假货,DVD+R 是非常可靠的。CD-R 会受到从红外线到紫色的任何光的影响(红外线无处不在,有时很多),DVD+R 只受到红色或更短的光的影响,已经更加困难了。DVD 在两层塑料之间也有敏感层,CD 的敏感层位于铅笔可写表面的正下方!!BD-R 磁盘是最好的:你需要紫罗兰或紫外线来破坏它们,它们的表面是最强的。我会说使用 BD-R 进行实用存档,30 年后成功的可能性很高。但是你需要一个球员。 (3认同)

Red*_*ick 20

除了密封存储的档案纸上的档案墨水之外,目前没有任何介质被证明可以在不进行任何维护的情况下平均使用 100 年。

档案纸

较旧的纸张由亚麻和大麻等材料制成,因此天然呈碱性。或无酸,因此可以持续数百年。20 世纪的纸张和大多数现代纸张通常由木浆制成,木浆通常呈酸性,不能长时间保存。

档案油墨

这些永久性、不褪色的墨水耐光、耐热和防水,并且不含会影响纸张或照相材料耐久性的杂质。黑色光化油墨具有化学稳定性,并具有无机颜料,不会像其他油墨颜料那样吸收杂质。

冗余存储

托瓦兹曾经说过

只有懦夫才使用磁带备份:_真正的_男人只是将他们重要的东西上传到 ftp,然后让世界其他地方镜像它

这表明您不应该依赖单一媒体上的单一副本。

不是磁性介质?

http://www.zdnet.com/blog/perlow/the-bell-tolls-for-your-magnetic-media/9364?tag=content;siu-container

  • 磁介质不可恢复退化的典型例子。
  • 硬件和软件(和数据格式)问题

非专业系统

在 2002 年,人们非常担心这些光盘会变得无法读取,因为能够读取该格式的计算机变得稀少,而能够访问这些光盘的驱动器更加稀少。除了难以模拟原始代码之外,一个主要问题是静止图像已作为单帧模拟视频存储在激光盘上,

http://en.wikipedia.org/wiki/BBC_Domesday_Project#Preservation

长期个人存储

http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376

  • 媒体和格式都可能变得不可读。
  • 用颜料墨水在无酸纸上打印,并存放在阴凉、干燥和黑暗的地方。
  • 第一个问题是选择数据格式以获得最长的寿命。
  • 避免使用专有格式
  • USCSF 正在将他们所有的原始磁带(许多采用 BetaSP 和 VHS 等现已过时的格式)转换为 75Mbit motionJPEG2000 格式


gab*_*ous 12

快速跟进我上面的先前答案,这将变得更加简洁和扩展,附加(但不是最重要的)信息和参考资料,由于 30K 长度限制,我无法在第一个答案中添加这些信息和参考资料。

由于长期存档是一个管理过程,因此您可能需要注意以下一些其他事项,以提高您的流程效率并减少时间(和资源)消耗:

  • 重复数据删除:由于确保长期存档的唯一方法是通过精心设计的冗余,因此您希望避免无用的冗余数据(例如,您从 USB 密钥获取的文件副本到您的存档硬盘,但您已经有一份即将到来的副本)从您的主计算机!)。不需要的冗余数据(通常称为重复数据)在存储成本(它们占用更多存储资源,但在需要时您将很难找到它们)和您的流程(如果您有同一文件的不同版本怎么办?你怎么知道哪个副本是正确的?)和你的时间(当你将备份同步到所有档案时,它会增加传输时间)。这就是专业档案服务通常提供自动重复数据删除的原因: 完全相似的文件将获得相同的 inode,并且它们不会占用任何额外空间。例如,这就是 SpiderOak 所做的。您可以使用自动化工具,ZFS (Linux) 或 ReFS (Windows) 文件系统可以自动为您完成。

  • 优先级/分类:如您所见,长期存档是一个耗时的过程,需要定期进行(完整性检查、跨媒体同步存档、在新媒体上制作新存档以替换即将失效的存档、使用纠错码修复文件) , 等等。)。为了最大限度地减少您花费的时间,请尝试根据数据的优先级基于类别定义不同的保护方案. 这个想法是,当您将计算机数据移动到用于长期存档的外部硬盘驱动器之一时,您可以将它们直接放在一个定义备份优先级的文件夹中:“不重要”、“个人”、“重要”、“关键” ”。然后你可以为每个文件夹定义不同的备份策略:只为你想要保留一生的最关键数据(关键文件夹)保留完全保护(例如,在 3 个硬盘驱动器上备份 + 云 + 纠错码 + 蓝光) ,然后对“重要”数据的中等保护(例如,在 3 个硬盘驱动器 + 云上备份)然后“个人”只是复制到至少两个外部硬盘驱动器,而“不重要”不会复制(或者可能在一个硬盘上)如果同步不是太长,请驱动...)。通常,您会看到“ 是您从互联网上下载的所有内容或您获得的您并不真正关心的各种文件和媒体(如软件、游戏和电影)。底线是:您想要长期存档的文件越多,它就越难(和耗时),所以尽量减少得到这种特殊处理的文件。

  • 元数据是一个关键点:即使有好的管理策略,通常也有一件不受保护的东西:元数据。元数据包括关于你的文件的信息,例如:目录树(是的,这只是几个字节,如果你丢失了它,你的文件就会完全混乱!),文件名和扩展名,时间戳(这个可能对您很重要)等。这可能看起来没什么大不了的,但请想象以下情况:如果明天,您的所有文件(包括随软件和其他东西一起提供的文件)都放在一个平面文件夹中,没有文件名或延期。通过手动检查,您能否从计算机上的数十亿个文件中恢复您需要的文件?不要认为这是一个不寻常的情况,它可能会像在复制过程中断电或崩溃一样容易发生:正在写入的分区可能会被完全破坏(臭名昭著的 RAW 类型)。为了克服这个问题,你应该准备好数据恢复:为了确保你保留元数据,你可以使用它们的元数据聚合文件非固体档案,例如 ZIP DEFLATE 或DAR(但不是 tar)。一些文件系统提供自动元数据冗余,例如 DVDisaster(用于光盘)和 ZFS/ReFS(用于硬盘驱动器)。然后在元数据崩溃的情况下,您可以尝试使用 TestDisk 或 GetDataBack(允许部分目录树恢复)或 ISOBuster(用于光盘)来恢复您的分区,以恢复目录树和其他元数据。如果这一切都失败了,你可以使用 PhotoRec 回退到文件抓取:这将提取它识别的所有文件,但完全混乱,没有文件名和时间戳,只会恢复数据本身。如果您压缩了重要文件,您将能够恢复 zip 内的元数据(即使 zip 本身不再包含元数据,至少文件内仍具有正确的元数据)。然而,您将不得不手动一个一个地手动检查所有文件抓取的文件,这很耗时。为了防止这种可能性,您可以使用 pyFileFixity 或 PAR2 预先生成完整性校验和文件,然后在文件抓取后使用此完整性校验和文件根据其内容自动识别和重命名文件(这是自动化文件抓取元数据的唯一方法)数据恢复,因为文件抓取技术上只能恢复内容,不能恢复元数据)。

  • 自己测试您的文件格式和管理策略:与其相信关于哪种格式类型比另一种更好的文章的话,您可以自己尝试使用pyFileFixity filetamper.py或仅通过替换某些中的几个十六进制字符来自己尝试文件:您会看到大多数文件格式都可以分解为 3 个不同的字节。所以你真的应该仔细选择你的文件格式:更喜欢简单的文本文件作为笔记,并为媒体使用弹性文件格式(它们仍在研究中,例如 MPEG-4 可变纠错码,ffmpeg 实现了它,将添加 ref ),或生成您自己的纠错码。

  • 阅读统计研究,不要相信说法:正如我在之前的回答中所说,一直以来都在夸大存储介质寿命的说法,而没有任何科学事实,您应该特别警惕这一点。事实上,法律中没有任何内容可以阻止制造商吹嘘虚假且无法证实的长寿声明。更喜欢参考统计研究,例如BackBlaze 关于硬盘故障率的年度报告

  • 采取长期保证的存储介质。保修不能带回您的数据,但它会告诉您生产商如何评估其产品的故障率(否则在保修期内,如果故障率太高,则成本太高)。


我使用的方案的更新:我应用了上述优先级策略,并将云备份服务 SpiderOak 添加到我的方案中,因为它有一个无限存储的计划并且它是完全加密的,所以我保留了我的数据的唯一所有权。我不将任何数据用作我唯一的备份介质,它只是一个附加层。

所以这是我目前的计划:

  • 3 个硬盘驱动器副本定期检查和同步并存储在两个不同的地方,1 个始终在我身上(我用它来存储垃圾并进行快速备份)。
  • SpiderOak 无限存储计划
  • 蓝光光盘用于真正真正合理的数据,但不要太大(我将可以存储在这些光盘上的数据限制为 50 GB)
  • pyFileFixity 和 DVDisaster 用于我真正想确保长期保留的文件夹。

我的日常生活是这样的:我总是有一个 2.5 英寸的便携式 USB 硬盘,我可以用它来存放不重要的东西(将文件从我的电脑移到硬盘上)或备份重要的东西(将文件复制到硬盘,但在我的硬盘上保留一份副本)计算机)。对于非常重要的内容,我还激活了 SpiderOak 的在线备份(我的计算机上有一个包含重要内容的文件夹,所以我只需要将关键文件移到那里,SpiderOak 就会自动同步)。对于真正关键的文件,我还使用 pyFileFixity 计算了一个纠错文件。

总而言之,对于关键的东西,我将它们存储在:便携式硬盘、SpiderOak 云和我的电脑上,所以我可以随时拥有3 个副本只需两个快速操作(复制到便携式硬盘并移动到 SpiderOak 文件夹)。如果一个副本被损坏,我可以使用 pyFileFixity 进行多数投票来修复它们。这是一个成本非常低的方案(在价格和时间上)但非常有效,并且实现了数字管理的所有核心原则(三重冗余、不同位置的不同副本、不同的介质、完整性检查和 SpiderOak 的 ecc)。

然后,每 3 到 6 个月,我将我的便携式硬盘同步到我家里的第二个硬盘,然后每 6 到 12 个月我将我的便携式硬盘同步到我在另一个房子里的第三个硬盘。这提供了轮换的额外好处(如果在 6 个月后我意识到上次备份中出现问题并且我删除了关键文件,我可以从两个家用 HDD 之一中获取它们)。

最后,我使用 DVDisaster 在 BluRay 光盘上编写了一些非常关键的文件(以及使用 pyFileFixity 的其他 ecc 文件,但我不确定是否有必要)。我将它们存放在壁橱中的密封盒中。我每隔几年才检查一次。

所以你看,我的计划并不是一个很大的负担:每天,将文件复制到便携式硬盘和我的 SpiderOak 文件夹需要几分钟,然后我每 6 个月同步到一个或另一个家庭硬盘. 这可能需要长达一天的时间,具体取决于需要同步多少数据,但它是由软件自动完成的,因此您只需要让计算机运行该软件,然后您就可以做其他事情(我使用我刚购买的 100 美元上网本)这样做,这样我就可以同时在我的主计算机上工作,而不必担心在复制过程中我的计算机崩溃,这可能会破坏正在写入的硬盘驱动器)。纠错码和蓝光方案很少用于真正关键的数据,所以它有点耗时,但很少见。

该方案可以增强(一如既往),例如通过在硬盘驱动器上使用ZFS/ReFS:这将实现自动 Reed-Solomon纠错代码保护和完整性检查(和同上块!),而无需进行任何手动交互(与 pyFileFixity 相反)。尽管 ZFS不能在 Windows 操作系统下运行(目前),但有 ReFS 允许在文件系统级别进行类似的纠错控制。此外,在外部硬盘驱动器上使用这些文件系统可能是个好主意!运行 ZFS/ReFS 并具有自动 RS 纠错和重复数据删除功能的便携式 HDD 应该很棒!(ZFS 似乎很快,所以复制应该很快!)。

最后一个注意事项:请注意本列表中有关文件系统 ECC 功能的声明,因为大多数情况下,它仅限于元数据(例如APFS)或 RAID 1 镜像(btrfs)。据我所知,只有 ZFS 和 ReFS 提供元数据和数据的真正纠错代码(而不是简单的镜像),ZFS 是目前最先进的(尽管截至 2018 年仍处于实验阶段),特别是因为 ReFS 驱动器无法启动.

/ 2020 年更新:有新的解决方案正在出现,它们仍处于早期的实验阶段,正在使用通常基于不可变区块链的去中心化方法,探索非常有趣,尽管现在可能对大多数解决方案不可用(我会不依赖它们来备份关键数据,但如果您喜欢冒险,它们可以用作辅助备份):

  • Perkeep(与其他软件比较)。一个类似的项目是Upspin。到 2020 年初,两者都在积极开发中。
  • 新亚
  • Syncthing可以促进多个设备之间的备份镜像,它是免费和开源的
  • 开发人员的libchop
  • bitdust(重建还没有准备好所以要小心!)


hai*_*img 11

没有简单的解决方案。档案维护是一个过程,而不是一次性的工作。所有三种当前可用的存档媒体类型都有自己的优点和缺点,但是这些论点适用于所有媒体类型:

  1. 出于显而易见的原因,没有人将 DVD 或硬盘存储 30 年或 100 年。所以没有记录,也没有人知道媒体会如何老化。人工老化测试证明不了多少,您依赖供应商的测试(不公正)。

  2. 您必须将介质存放在受控环境中以获得最佳效果(恒温/恒湿、低光等)。否则介质寿命会显着缩短。

  3. 您必须维护读取介质的硬件和软件(例如,SATA 接口在 30 年后可能不会现成可用)。

因此,在我看来,对于家庭用户或小型企业来说,唯一可行的解​​决方案是:

  1. 在不同的媒体类型(硬盘和 DVD)上维护所有数据的多个副本
  2. 在多个位置(在家和银行的保险箱中)维护所有数据的多个副本。
  3. 每隔一段时间将所有数据复制到新介质(例如,每 2 年复制到新硬盘和新 DVD 磁盘。随着数据密度的增加,您可能需要的磁盘也更少。
  4. 如果可能,保留所有关键数据的纸质副本(例如,为您的企业打印那些年度总账,打印最珍贵的家庭照片等)

  • 接口兼容性将是一个主要问题;IBM XT 推出已经有大约 30 年了,但是今天有多少计算机可以以任何方式与 ATA 之前的硬盘连接?今天有多少计算机甚至可以在没有额外硬件(控制器卡或 USB 适配器)的情况下连接 PATA 硬盘? (4认同)

小智 5

我会去微电影。我不知道它是否仍在制造,但如果不是,我会感到惊讶。如果存储正确,银基底片可以使用数百年。当然,这是一笔巨大的投资,而且会占用整个空间进行摄影和观看,这还不包括存储空间。因此,只有当您真正使用 100 年以上且无需维护时才会如此。

如果没有 - 除非您想制作时间胶囊,否则您很可能没有 - 只需使用 HDD 备份,然后每 10 到 15 年将整个内容复制到新媒体上。真的,没有比每 10 年左右复制整个内容更好的方法来防止媒体老化。比缩微胶卷好,比粘土片好,比埋在沙漠中的石方尖碑好。