我有以下类型的基因组学文件:
$ cat test-file_long.txt
2 41647 A G
2 45895 A G
2 45953 T C
2 224919 A G
2 230055 C G
2 233239 A G
2 234130 T G
2 23454 T C
Run Code Online (Sandbox Code Playgroud)
当我使用以下简短的AWK脚本时,它不会返回所有大于if语句中使用的元素的元素:
{
a[$2]
}
END{
for (i in a){
if(i > 45895)
print i
}
}
Run Code Online (Sandbox Code Playgroud)
该脚本返回:
$ awk -f practice.awk test-file_long.txt
45953
Run Code Online (Sandbox Code Playgroud)
但是,当我使用int()更改if语句时,它返回实际上大于的行,如我所愿:
{
a[$2]
}
END{
for (i in a){
if(int(i) > 45895)
print i
}
}
Run Code Online (Sandbox Code Playgroud)
结果:
$ awk -f practice.awk test-file_long.txt
233239
230055
234130
224919
45953
Run Code Online (Sandbox Code Playgroud)
它似乎只是与第一个数字进行比较,如果它们是相同的,它会查看下一个数字,但它不会处理整个数字.有人可以向我解释关于关联数组的内部机制是什么,它不会使数字>/<比较,除非我指定我想要数组元素的int()?如果我的数组元素是浮点数并且int()不是一个选项怎么办?
Tom*_*ech 13
awk中的数组键是字符串,因此在这里进行字母比较.在您的第一个示例中,459
大于458
字母顺序,因此它通过了测试.
如果你唯一的目标是打印第二列> 45895
数字的行,这将做:
awk '$2 > 45895' test-file_long.txt
Run Code Online (Sandbox Code Playgroud)
变量根据评估它们的上下文更改类型.因此,通过将变量放在显式数字上下文中,它将被视为这样.@glenn的建议i+0
完美地证明了这一点.
或者,可以使用一元加运算符 +i
将表达式转换为数字.所以你的更长的例子可以改为:
awk '{a[$2]} END { for (i in a) { if (+i > 45895) print i } }' test-file_long.txt
Run Code Online (Sandbox Code Playgroud)