Pau*_*oyd 3 regex perl regex-lookarounds
我正在尝试修改 perl 过滤器以插入可能丢失的行。
我可能有输入
甲
乙
Ç
或者
一
ç
A 和 B 是固定的并且预先知道。C 可能因文件而异。
实际数据更复杂 - 作为回归测试的一部分生成的调用堆栈。根据所使用的编译器(以及优化),可能会消除尾调用,这可以删除“B”帧。过滤后的文件只是简单地比较。
在第二种情况下,我想插入“B”行。在第一种情况下,我不想插入重复的行。我认为这是一个负面前瞻的工作,使用以下
s/A.(?!B)/A\nB/s;
Run Code Online (Sandbox Code Playgroud)
然而,这似乎意味着“如果 A.(?!B) 的任何部分与输入文本匹配,然后用 A\nB 替换它”,而我需要“如果所有 A.(?!B) 匹配”然后替换。
无论我尝试什么,它要么总是替代,要么从不替代。
在一个准备好的测试的单线
perl -0777 -wpe's/ ^A.*\n \K (?!B.*\n) /B-line\n/xgm' file
Run Code Online (Sandbox Code Playgroud)
这\K使得它丢弃它之前的所有匹配项,因此我们不必捕获它们并将它们复制回替换端。通过-0777 开关,整个文件被压缩成一个字符串,在$_.
为了匹配所有这样A-B?-C的行组,我们需要/g 修饰符(匹配“全局”),并且为了锚^也匹配内部换行符,我们需要/m修饰符(“多行”)。
该/x修饰使得它忽略文字空间(和换行和注释),就是允许的间距的东西出来了可读性。
另一方面,如果以 开头的行A必须后跟以 开头的行B,或者C如果B-line 不存在,则后跟以 开头的行,则它更简单,无需前瞻
perl -0777 -wpe's/ ^A.*\n \K (^C.*\n) /B-line\n$1/xgm' file
Run Code Online (Sandbox Code Playgroud)
这两个都在我的(基本)测试中正常工作。
在任何一种情况下,文件的其余部分都按原样打印,因此您可以使用-i开关“就地”更改输入文件,如果需要,-i.bak您还可以获得备份。所以
perl -i.bak -0777 -wpe'...' file
Run Code Online (Sandbox Code Playgroud)
或者您可以将输出(重定向)转储到同一个文件中以覆盖它,因为整个文件首先被读取,如果这用完了脚本。
逐行读取文件当然要灵活得多。例如
use warnings;
use strict;
use feature 'say';
my $just_saw_A_line;
while (<>) {
if ($just_saw_A_line and not /^B/) {
say "B-line";
}
$just_saw_A_line = /^A/;
print
}
Run Code Online (Sandbox Code Playgroud)
这也处理多个A-(B?)-C线路组。它更容易针对变化进行调整。
该程序就像一个过滤器,STDIN从命令行上给出的文件中获取或 行,并将行打印到STDOUT. 然后可以将输出重定向到文件,但不能重定向到输入文件本身。(如果需要更改输入文件,则需要为此修改代码。)