使用bash shell自动删除由关键字分隔的千兆字节行的最快方法是什么?

Osi*_* Xu 4 bash shell perl awk sed

例如,给定一条线a11b12c22d322 e...,break的字段是数字或空格,我们想将其转换为

a
b
c
d
e
...
Run Code Online (Sandbox Code Playgroud)

sed 需要将整行读入内存,对于千兆字节一行,它不会有效,如果我们没有足够的内存就无法完成工作.

编辑:

谁能解释grep,tr,awk,perl和python如何在读取大文件时操作内存?他们一次读入内存的内容是多少?

che*_*ner 6

如果您使用gawk(awk我认为这是Linux上的默认设置),您可以使用该RS参数指定将多位数字或空格识别为行终止符而不是换行符.

awk '{print}' RS="[[:digit:]]+| +" file.txt
Run Code Online (Sandbox Code Playgroud)

至于你的第二个问题,所有这些程序都需要读取一些固定数量的字节,并在内部缓冲区中搜索其行分隔符的概念,以模拟一次读取一行的外观.为了防止它在搜索行尾时读取太多数据,您需要更改程序终止行的想法.

大多数语言允许您执行此操作,但只允许您指定单个字符.gawk通过允许您指定正则表达式来识别行尾字符,可以轻松实现.这样您就不必自己实现固定大小的缓冲区和行尾搜索.

  • 我认为`RS ='[[:digit:] [:space:]] +'`比交替更快 (2认同)