Oli*_*nde 9 backup google large-data
处理大量数据的公司(例如 Google 或 Facebook)如何备份所有内容?
根据维基百科上的这篇谷歌平台文章,谷歌估计有 450,000 多台服务器,每台服务器都有 80+ GB 的硬盘。这是很多数据。他们真的为每 1 GB 数据保留 1 GB 以上的备份吗?
这取决于你的目的是什么。
如果您正在寻找灾难恢复的备份(服务器爆炸、数据中心烧毁等),那么简短的回答是他们可能根本不做备份。我们有一个处理敏感政府数据的客户,他们的部分任务是我们不得进行备份或备份到可移动媒体上。我们被允许实时复制到 DR 站点,仅此而已。两个站点都具有相同级别的物理和逻辑安全性。这里的问题是,如果我在站点 A 上搞砸了某些事情,那么它几乎会立即复制到站点 B。
如果您从数据完整性的角度谈论备份(例如,您不小心删除了客户表并且它已经复制到 DR 站点),那么大型磁带库中的 LTO-5 磁带通常是首选。每个磁带高达 3TB,一个磁带库中有多个磁带,您可以快速备份大量数据(这里的快速指的是 Mbps,备份 25TB 数据可能仍然需要很多很多小时)。
任何体面的备份套件都会进行高压缩和重复数据删除,从而大大减少所需的存储空间量。我曾经看到一个压缩和重复数据删除 Exchange 备份工具的估计,它声称比率为 15:1(15gb 的数据存储在 1gb 的备份中)。
我非常怀疑 Google 是否会为他们的很多搜索引擎数据进行备份,因为其中大部分数据是可替换的,而且分布范围很广,如果他们丢失了大部分甚至整个数据中心,系统仍会保留在线感谢故障转移 BGP 路由。
实际上,看起来Google 确实将大量垃圾数据备份到了磁带上,这并不是我所期望的: