标签: archive

传输 15TB 的小文件

我正在将数据从一台服务器归档到另一台服务器。最初我开始了rsync一份工作。仅为 5 TB 数据构建文件列表就花了 2 周时间,而传输 1 TB 数据又花了一周时间。

然后我不得不终止这项工作,因为我们需要在新服务器上停机一段时间。

已经同意我们将其压缩,因为我们可能不需要再次访问它。我正在考虑将其分成 500 GB 的块。在我tar之后,我打算将它复制到ssh. 我正在使用tarpigz但它仍然太慢。

有没有更好的方法来做到这一点?我认为两台服务器都在 Redhat 上。旧服务器是 Ext4,新服务器是 XFS。

文件大小从几 kb 到几 mb 不等,5TB 中有 2400 万个 jpeg。所以我猜测 15TB 大约为 60-80 百万。

编辑:在玩了几天 rsync、nc、tar、mbuffer 和 pigz 之后。瓶颈将是磁盘 IO。由于数据跨 500 个 SAS 磁盘和大约 2.5 亿个 jpeg 进行条带化。但是,现在我了解了我将来可以使用的所有这些不错的工具。

linux file-transfer archive linux-networking

80
推荐指数
4
解决办法
2万
查看次数

是否有更智能的 tar 或 cpio 可以有效地检索存储在存档中的文件?

我正在使用tar归档一组非常大(多 GB)的bz2文件。

如果我tar -tf file.tar用来列出存档中的文件,这需要很长时间才能完成(~10-15 分钟)。

同样,完成cpio -t < file.cpio所需的时间也一样长,加减几秒钟。

因此,从存档中检索文件(tar -xf file.tar myFileOfInterest.bz2例如通过)也很慢。

是否有一种存档方法可以在存档中保留一个随时可用的“目录”,以便可以快速检索存档中的单个文件?

例如,某种目录存储指向存档中特定字节的指针,以及要检索的文件的大小(以及任何其他文件系统特定的详细信息)。

是否有一个工具(或参数tarcpio)允许归档中的文件的高效检索?

linux archive tar cpio

27
推荐指数
5
解决办法
2万
查看次数

Exchange 环境中的电子邮件存档

我们正在寻找一种解决方案来对我们的 Exchange Server 2007 环境进行电子邮件归档和近线备份。

我们目前有大约 200 个邮箱,Mailstore 大约有 150 GB。我们需要能够出于法律目的将电子邮件存档数年,并且希望存档解决方案还有助于在可能的情况下加快恢复已删除邮件的速度。我们的系统支持顾问推荐了 Mimosa。

有人对含羞草或该市场领域的其他产品有经验吗?

email exchange archive

20
推荐指数
2
解决办法
3544
查看次数

创建包含校验和的 tar 文件

这是我的问题:我需要将大量(最多 60 TB)大文件(通常每个 30 到 40 GB)归档到 tar 文件。我想在归档之前对这些文件进行校验和(md5、sha1 等);然而,不是读取每个文件两次(一次用于校验和,两次用于 tar'ing)或多或少是实现非常高的归档性能的必要条件(LTO-4 需要 120 MB/s 的持续速度,并且备份窗口是有限的)。

所以我需要一些方法来读取文件,在一侧提供校验和工具,并在另一侧构建一个 tar 到磁带,一些东西:

tar cf - files | tee tarfile.tar | md5sum -
Run Code Online (Sandbox Code Playgroud)

除了我不想要整个存档的校验和(这个示例 shell 代码就是这样做的),而是存档中每个单独文件的校验和。

我研究过 GNU tar、Pax、Star 选项。我查看了Archive::Tar的来源。我认为没有明显的方法可以实现这一目标。看起来我必须用 C 或类似的东西手工构建一些东西才能实现我需要的东西。Perl/Python/etc 根本不会在性能方面削减它,并且各种 tar 程序错过了必要的“插件架构”。在我开始代码改动之前,有没有人知道任何现有的解决方案?

linux archive checksum

18
推荐指数
2
解决办法
3万
查看次数

具有成本效益的长期视频和图像数据存档?约 50 TB

我的实验室正在为我们小组正在进行的项目设置一个小型服务器,该服务器保存数据(主要是视频和图像数据,以及一些文档)。从历史上看,在一个研究项目结束后,数据最终会被随意地存档在一个硬盘驱动器中,或一大堆 DVD(或过去的 CD)中,和/或一些视频最终被保存在 Sony DV 磁带中,甚至VHS 磁带(该实验室自 90 年代初以来一直活跃),或以上所有内容的混合...

问题:(1) 将它们全部整合到相同格式和存储介质中的最佳方法是什么,以及 (2) 长期存档此类数据以供偶尔访问(例如 30 多年?)的最佳介质是什么?不幸的是,我们没有企业级预算(我们只是一个约 10 人的实验室),因此无法做花费数十万美元的事情。

谢谢!

PS 考虑到我们的旧视频和图像的分辨率较小,但最近的分辨率很大,我认为我们谈论的是真正旧数据的 30~40 TB,最近数据的另外 10~20 TB,然后每年增加约 5 TB .

backup storage archive

16
推荐指数
2
解决办法
3697
查看次数

archive.debian.org 上的 wheezy-updates 返回 404 Not Found

我在 Debian Wheezy 上有一台旧的测试机器,我现在无法真正更新。

Debian Wheezy 存储库已于 2 月归档。所以我想提前,并更新我/etc/apt/sources.list

deb http://ftp.fr.debian.org/debian wheezy main
deb http://security.debian.org/ wheezy/updates main
deb http://ftp.fr.debian.org/debian wheezy-updates main
Run Code Online (Sandbox Code Playgroud)

deb http://archive.debian.org/debian wheezy main
deb http://security.debian.org/ wheezy/updates main
deb http://archive.debian.org/debian wheezy-updates main
Run Code Online (Sandbox Code Playgroud)

但是,在运行时apt-get update,我收到此错误:

# apt-get update
<snip>
Err http://archive.debian.org wheezy-updates/main i386 Packages
  404  Not Found [IP : 193.62.202.28 80]
Run Code Online (Sandbox Code Playgroud)

其他存储库正在更新,没有问题。

我错过了什么吗?

debian archive apt debian-wheezy

16
推荐指数
2
解决办法
4万
查看次数

使用 Linux 自制自动分层存储解决方案?(内存 -&gt; SSD -&gt; HDD -&gt; 远程存储)

这个关于将 SSD 用于系统和 HDD 用于数据的问题相关,除了我希望我的系统自动执行此操作...

是否可以使用最好的免费开源软件在它们之间自动设置多层存储和推送项目?

我知道非常昂贵的企业级解决方案,例如 EMC SAN-> EMC Centera自动归档,但我想知道这种分阶段存储是否可以自动执行。

能够在其中包含多个层会很好:内存->SSD->HDD->较慢的 HDD 或磁带或其他一些存档解决方案。

是否有任何文件系统可以自动执行此操作?(ZFS、Btrfs、HAMMER?)

任何Unix变体都很好,因为我对它的工作原理以及它是否可以移植到 Linux 或其他版本(BSD 等)感兴趣。

linux unix storage ssd archive

13
推荐指数
3
解决办法
2万
查看次数

Tar:避免归档大于特定大小的文件

我想归档小于 3 MB 的文件(使用 tar)。但我也想保留这些文件所在的目录。(所以我不能使用find命令)。我只想避免大小超过 3 MB 的文件。如何才能做到这一点?

backup archive tar

12
推荐指数
1
解决办法
7203
查看次数

如何列出 zip 存档的内容,但仅列出第一级?

我有一个很大的 zip 文件,我想知道它包含什么。我知道我可以运行:

zipinfo file.zip
Run Code Online (Sandbox Code Playgroud)

但是输出太冗长,子目录中有很多文件。

我想查看顶级文件的列表。

例子

如果正常输出是:

-sh-3.2$ zipinfo file.zip
Archive:  file.zip   999999999 bytes   99999 files
-rw-r--r--  2.3 unx     3894 tx defN  3-Jul-11 13:11 file1
drwxr-xr-x  2.3 unx        0 bx stor 23-Feb-12 21:00 dir1/
-rw-r--r--  2.3 unx      269 tx defN 23-Oct-11 14:34 dir1/file2
drwxr-xr-x  2.3 unx        0 bx stor 25-Sep-11 03:53 dir1/subdir1/
...
drwxr-xr-x  2.3 unx        0 bx stor 23-Feb-12 21:00 dir2/
...
Run Code Online (Sandbox Code Playgroud)

我想要一个将输出的命令:

-sh-3.2$  <answer>
Archive:  file.zip   999999999 bytes   99999 files
-rw-r--r--  2.3 unx     3894 …
Run Code Online (Sandbox Code Playgroud)

compression directory archive

12
推荐指数
2
解决办法
2570
查看次数

如何使用正则表达式从 TAR 存档中排除文件?

我有一个简单的问题,但我无法找到或解决答案。我想制作一个 tar 存档,但我想使用正则表达式从中排除一些文件。

要排除的文件示例如下: 68x640X480.jpg

我试过这个没有运气:

tar cvf test.tar --exclude=[0-9]+x[0-9X]+\.jpg /data/foto
Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗?

linux archive regex tar

11
推荐指数
1
解决办法
2万
查看次数