大文件上的 cat 不起作用

Lin*_*ket 3 shell compression cat

我试图将四个大文件连接成两个。文件 *_1P.gz 包含的行数与对应的 *_2P.gz 行数相同。

文件A_1P.gz和A_2P.gz两者都包含1104507560行。
文件B_1P.gz和B_2P.gz两者都包含1182136972行。

但是，cat A_1P.gz B_1P.gz > C_1P.gz| wc -l返回186974687行和cat A_2P.gz B_2P.gz > C_2P.gz| wc -l返回182952523行，因此两者不仅比两个输入文件小得多（它们的长度应该超过 2B 行，而小于 2M），而且它们的行数也不同。运行的命令没有显示任何错误。

我无法理解发生了什么，我也生成了这四个大文件cat并且它运行正常。

可能是什么问题？
我还有什么其他选项可以在不使用的情况下连接 gzipped 文件cat？

我在 CentOS 服务器上工作。我还有 197G 的空间，所以这应该不是问题（或者至少应该显示错误）。

请注意，文件是压缩的。因此，您不能wc -l直接在文件上使用来计算其中的原始行数，而无需先解压缩它们。

可以cat用于连接这些类型的压缩文件，因为生成的文件本身就是一个有效的压缩文件。稍后解压缩它会产生一个文件，该文件是来自两个文件的未压缩数据的串联。

cat A_1P.gz B_1P.gz >C_1P.gz

Run Code Online (Sandbox Code Playgroud)

要计算中的行数C_1P.gz：

zcat C_1P.gz | wc -l

Run Code Online (Sandbox Code Playgroud)

或者

gunzip -c C_1P.gz | wc -l

Run Code Online (Sandbox Code Playgroud)

或者

gzip -dc C_1P.gz | wc -l

Run Code Online (Sandbox Code Playgroud)

但请注意，我们需要解压缩文件以计算行数，否则我们将计算文件压缩算法作为压缩数据的一部分生成的“随机”换行符（这些与未压缩文件中的行无关）。

归档时间：	7 年，4 月前
查看次数：	1492 次
最近记录：	7 年，4 月前

从 shell 重命名当前目录 - 可能吗？ 29

如何正确临时保存和恢复 IFS 变量？ 25

用它的协进程/子进程替换当前进程 10

将位于文件中的密码通过管道传输到 ssh 命令 8

Shell 在 for 循环中的算术表达式处静默退出 8

为什么我不能向 /etc/shells 添加鱼？ 6

如果条件始终为真，则使用 Bash 脚本 4

关于执行shell脚本 2

bash 数组中的间接访问 1

如何在Linux中使用'find'命令获取找到的文件的绝对路径？ -1

执行与读取位。Linux 中的目录权限如何工作？ 453

为您的终端和 shell 环境着色？ 284

如何知道磁盘是SSD还是HDD 261

ssh 配置中的多个类似条目 255

cp -r 和 cp -a 的区别 222

如何使用 find 命令搜索多个扩展名 210

我怎样才能让`date` 输出不同时区的时间？ 157

如何通过 mv 命令移动所有文件和文件夹 140

如何在不按 Enter 键的情况下运行命令？ 121

如何使用 gpg 更新过期的密钥对 113