逐行解析字符串和复制行中的关键字符

MAX*_*GEN 1 regex bash awk parsing sed

我正在尝试解析DNA蛋白文件.我想提取一定数量的信息.我想解析只有当行以"ATOM"开头并且在第四列的末尾有G,A,T,C时才解析.例如,在下面的片段中,DG将被解析,因为它最后有一个G. 然后将该行保存在文件中.我正在使用bash.你会用什么来做这个?grep,find,sed,awk或某种正则表达式?

谢谢你的帮助!

    HETATM  103 HG22 MVA A   8       4.999  -1.260   2.090  1.00  0.00           H            
    HETATM  104 HG23 MVA A   8       5.639  -2.810   2.604  1.00  0.00          H  
    TER     105      MVA A   8                                                      
    ATOM    106  O5'  DG C  11     -12.710   1.571 -11.945  1.00  0.00           O  
    ATOM    107  C5'  DG C  11     -13.491   2.438 -11.111  1.00  0.00           C  
Run Code Online (Sandbox Code Playgroud)

除了原始问题:

计算总数和个别G,A,T,C?将计算的总数输出到文件中,作为总行数,总计G,总计T,总计A,总计C.

Ken*_*ent 6

awk '/^ATOM/&&$4~/[GATC]$/' input > output
Run Code Online (Sandbox Code Playgroud)