MAX*_*GEN 1 regex bash awk parsing sed
我正在尝试解析DNA蛋白文件.我想提取一定数量的信息.我想解析只有当行以"ATOM"开头并且在第四列的末尾有G,A,T,C时才解析.例如,在下面的片段中,DG将被解析,因为它最后有一个G. 然后将该行保存在文件中.我正在使用bash.你会用什么来做这个?grep,find,sed,awk或某种正则表达式?
谢谢你的帮助!
HETATM 103 HG22 MVA A 8 4.999 -1.260 2.090 1.00 0.00 H
HETATM 104 HG23 MVA A 8 5.639 -2.810 2.604 1.00 0.00 H
TER 105 MVA A 8
ATOM 106 O5' DG C 11 -12.710 1.571 -11.945 1.00 0.00 O
ATOM 107 C5' DG C 11 -13.491 2.438 -11.111 1.00 0.00 C
Run Code Online (Sandbox Code Playgroud)
除了原始问题:
计算总数和个别G,A,T,C?将计算的总数输出到文件中,作为总行数,总计G,总计T,总计A,总计C.