awk匹配列中的多个模式

Question

awk匹配一列中多个模式的正确语法是什么？有一个像这样的列式文件:

c11 c21 c31
c12 c22 c32
c13 c23 c33

如何排除第二列中与c21和c22匹配的行.

使用grep,可以执行类似的操作(但不指定仅在第二列中匹配):

> egrep -w -v "c21|c22" bar.txt 
c13 c23 c33

我尝试玩awk但无济于事:

> awk '$2 != /c21|c22/' bar.txt 
c11 c21 c31
c12 c22 c32
c13 c23 c33

> awk '$2 != "c21" || $2 != "c22"' bar.txt 
c11 c21 c31
c12 c22 c32
c13 c23 c33

那么,正确的awk语法是什么？

Answer 1

$2 != /c21|c22/

是简写

$2 != ($0 ~ /c21|c22/)

其比较$2的结果进行比较$ 0至C21或C22的,并且结果是1或0,所以它测试对于$2具有比其它的值1.

$2 != "c21" || $2 != "c22"

正在测试$2不等于c21 或 $2不等于c22哪个条件始终为真.想一想 - 如果$ 2是c21那么第一个条件($2 != "c21")是假的,但是第二个条件($2 != "c22")是真的等等所以or对于任何值都是如此$2

你要写的是:

awk '$2 !~ /c21|c22/'

或更强大:

awk '$2 !~ /^(c21|c22)$/'

更简单(加上同样强大的)真正写出这种情况的方法是:

awk '$2 !~ /^c2[12]$/'

如果你想做一个字符串而不是正则表达式比较那么你可以做其中任何一个如果它是一个一次性的脚本(我赞成第一个更少的否定标志,恕我直言使其更清晰):

awk '!($2 == "c21" || $2 == "c22")'
awk '$2 != "c21" && $2 != "c22"'

而这个:

awk 'BEGIN{split("c21 c22",t); for (i in t) vals[t[i]]} !($2 in vals)'

最后一个是最好的,因为你只指定$2一次,如果你需要测试更多,你可以只为正在拆分的字符串添加其他值,这意味着你不能在后面的脚本中破坏比较ogic.