小编Joã*_*oão的帖子

csplit 无法识别提供的正则表达式

我正在处理这个包含其他几个文件的大文件(DATA.DAT,~900MB)。它来自PS2游戏。

声音样本(.AIFF格式),正是我所追求的,构成了它的大部分大小。

在网上搜索 PS2 .DAT提取器后,我发现它们基本上依赖于开发人员,并且由于该游戏/工具相当晦涩,而且在网上找不到太多相关信息,因此我想自己实现该过程的自动化。

在十六进制编辑器上检查文件时,我发现了一些.AIFF标头,将这些块克隆到新的.AIFF文件中,无需任何进一步的工作,它们就可以播放了。

花了一段时间从我非常有限的 bash 知识中摆脱了生锈并在这里阅读了类似的问题,我想出了这个表达:

gcsplit -f "sample-" -b "%04d.aif" DATA.DAT /FORM/ '{*}'
Run Code Online (Sandbox Code Playgroud)

(我在 OSX 上使用 coreutils,因此 csplit 上有 g- 前缀)

鉴于.AIFF文件以字符串“FORM”开头,并且文件中的所有样本基本上都彼此相邻(由不会在样本上产生不需要的末端噪声的可忽略数量的数据隔开),我认为正则表达式

/FORM/
Run Code Online (Sandbox Code Playgroud)

将足以拆分文件。

但是,每个拆分文件都带有垃圾数据,这些数据位于.AIFF标头之前的声音样本之间,使其无法播放。

下面是分割声音样本的十六进制数据的屏幕截图:

坏分裂

这个实际示例大约开始于 1500 字节标记:

样本

是什么让这个表达式用偏移量分割文件?

osx csplit

5
推荐指数
1
解决办法
599
查看次数

标签 统计

csplit ×1

osx ×1