Osi*_* Xu 4 bash shell perl awk sed
例如,给定一条线a11b12c22d322 e...,break的字段是数字或空格,我们想将其转换为
a
b
c
d
e
...
Run Code Online (Sandbox Code Playgroud)
sed 需要将整行读入内存,对于千兆字节一行,它不会有效,如果我们没有足够的内存就无法完成工作.
编辑:
谁能解释grep,tr,awk,perl和python如何在读取大文件时操作内存?他们一次读入内存的内容是多少?
如果您使用gawk(awk我认为这是Linux上的默认设置),您可以使用该RS参数指定将多位数字或空格识别为行终止符而不是换行符.
awk '{print}' RS="[[:digit:]]+| +" file.txt
Run Code Online (Sandbox Code Playgroud)
至于你的第二个问题,所有这些程序都需要读取一些固定数量的字节,并在内部缓冲区中搜索其行分隔符的概念,以模拟一次读取一行的外观.为了防止它在搜索行尾时读取太多数据,您需要更改程序终止行的想法.
大多数语言允许您执行此操作,但只允许您指定单个字符.gawk通过允许您指定正则表达式来识别行尾字符,可以轻松实现.这样您就不必自己实现固定大小的缓冲区和行尾搜索.