Pet*_*ung 4 linux bash awk sed
我在文件中有几列,其中第二列有“:”分隔符,我想删除第二列中的第一个、第三个和第四个字符串,并将第二个字符串留在该列中。但我有正常的分隔符空间,所以我不知道。
input:
--- 22:16050075:A:G 16050075 A G
--- 22:16050115:G:A 16050115 G A
--- 22:16050213:C:T 16050213 C T
--- 22:16050319:C:T 16050319 C T
--- 22:16050527:C:A 16050527 C A
desired output:
--- 22 16050075 16050075 A G
--- 22 16050115 16050115 G A
--- 22 16050213 16050213 C T
--- 22 16050319 16050319 C T
--- 22 16050527 16050527 C A
Wrong:
cat df.txt | awk -F: '{print $1, $3, $6, $7, $8}'
--- 22 A
--- 22 G
--- 22 C
--- 22 C
--- 22 C
Run Code Online (Sandbox Code Playgroud)
但我做不到。awk 和 sed 命令可以吗?
谢谢你。
只需使用POSIX
兼容split()
功能$2
作为
awk '{split($2,temp,":"); $2=temp[2];}1' file
--- 16050075 16050075 A G
--- 16050115 16050115 G A
--- 16050213 16050213 C T
--- 16050319 16050319 C T
--- 16050527 16050527 C A
Run Code Online (Sandbox Code Playgroud)
在 de-limiter 上拆分第 2 列:
,将$2
值更新为所需元素 ( temp[2]
) 并打印其余字段({}1
基于FS
并打印所有单个字段重新构造)。
推荐使用多个分隔符,因为它会改变单个字段的绝对位置,同时split()
可以轻松保留位置并仅提取所需的值。
对于添加新列的更新要求,只需执行
awk '{split($2,temp,":"); $2=temp[1] FS temp[2];}1' file
--- 22 16050075 16050075 A G
--- 22 16050115 16050115 G A
--- 22 16050213 16050213 C T
--- 22 16050319 16050319 C T
--- 22 16050527 16050527 C A
Run Code Online (Sandbox Code Playgroud)
或者,如果您有GNU awk
/gawk
您可以将其gensub()
用于基于正则表达式(使用POSIX
字符类[[:digit]]
)的提取作为
awk '{$2=gensub(/^([[:digit:]]+):([[:digit:]]+).*$/,"\\1 \\2","g",$2);}1' file
--- 22 16050075 16050075 A G
--- 22 16050115 16050115 G A
--- 22 16050213 16050213 C T
--- 22 16050319 16050319 C T
--- 22 16050527 16050527 C A
Run Code Online (Sandbox Code Playgroud)
该gensub(/^([[:digit:]]+):([[:digit:]]+).*$/,"\\1 \\2","g",$2)
部分仅捕获由:
捕获组分隔的前两个字段\\1
,\\2
并按原样打印其余字段。
归档时间: |
|
查看次数: |
2052 次 |
最近记录: |