用sed或awk删除行

Question

用sed或awk删除行

我有一个像这样的文件data.txt.

>1BN5.txt
207
208
211
>1B24.txt
88
92

Run Code Online (Sandbox Code Playgroud)

我有一个包含文本文件的文件夹F1.

F1文件夹中的1BN5.txt文件如下所示.

ATOM    421  CA  SER A 207      68.627 -29.819   8.533  1.00 50.79           C 
ATOM    421  CA  SER A 207      68.627 -29.819   8.533  1.00 50.79           C  
ATOM    422  C   SER A 248      70.124 -29.955   8.226  1.00 55.81           C 
ATOM    615  H   LEU B 208       3.361  -5.394  -6.021  1.00 10.00           H
ATOM    616  HA  LEU B 211       2.930  -4.494  -3.302  1.00 10.00           H 
ATOM    626  N   MET B  87       1.054  -3.071  -5.633  1.00 10.00           N  
ATOM    627  CA  MET B  87      -0.213  -2.354  -5.826  1.00 10.00           C

Run Code Online (Sandbox Code Playgroud)

F1文件夹中的1B24.txt文件如下所示.

ATOM    630  CB  MET B  87      -0.476  -2.140  -7.318  1.00 10.00           C 
ATOM    631  CG  MET B  88      -0.828  -0.688  -7.575  1.00 10.00           C
ATOM    632  SD  MET B  88      -2.380  -0.156  -6.830  1.00 10.00           S
ATOM    643  N   ALA B  92      -1.541  -4.371  -5.366  1.00 10.00           N  
ATOM    644  CA  ALA B  94      -2.560  -5.149  -4.675  1.00 10.00           C

Run Code Online (Sandbox Code Playgroud)

我只需要在1BN5.txt文件中包含207,208,211(第6列)的行.我想删除1BN5.txt文件中的其他行.像这样,我只需要在1B24.txt文件中包含88,92的行.

Desired output

Run Code Online (Sandbox Code Playgroud)

1BN5.txt文件

ATOM    421  CA  SER A 207      68.627 -29.819   8.533  1.00 50.79           C
ATOM    421  CA  SER A 207      68.627 -29.819   8.533  1.00 50.79           C 
ATOM    615  H   LEU B 208       3.361  -5.394  -6.021  1.00 10.00           H  
ATOM    616  HA  LEU B 211       2.930  -4.494  -3.302  1.00 10.00           H

Run Code Online (Sandbox Code Playgroud)

1B24.txt文件

ATOM    631  CG  MET B  88      -0.828  -0.688  -7.575  1.00 10.00           C
ATOM    632  SD  MET B  88      -2.380  -0.156  -6.830  1.00 10.00           S
ATOM    643  N   ALA B  92      -1.541  -4.371  -5.366  1.00 10.00           N

Run Code Online (Sandbox Code Playgroud)

Answer 1

Ste*_*eve 5

这是使用的一种方式GNU awk.运行如下:

awk -f script.awk data.txt

Run Code Online (Sandbox Code Playgroud)

内容script.awk:

/^>/ {
    file = substr($1,2)
    next
}

{
    a[file][$1]
}

END {

    for (i in a) {

        while ( ( getline line < ("./F1/" i) ) > 0 ) {

            split(line,b)

            for (j in a[i]) {

                if (b[6]==j) {

                    print line > "./F1/" i ".new"
                }
            }
        }

        system(sprintf("mv ./F1/%s.new ./F1/%s", i, i))
    }
}

Run Code Online (Sandbox Code Playgroud)

或者,这是单行:

awk '/^>/ { file = substr($1,2); next } { a[file][$1] } END { for (i in a) { while ( ( getline line < ("./F1/" i) ) > 0 ) { split(line,b); for (j in a[i]) if (b[6]==j) print line > "./F1/" i ".new" } system(sprintf("mv ./F1/%s.new ./F1/%s", i, i)) } }' data.txt

Run Code Online (Sandbox Code Playgroud)

如果您的旧版本awk比旧版本更旧GNU Awk 4.0.0,则可以尝试以下操作.运行如下:

awk -f script.awk data.txt

Run Code Online (Sandbox Code Playgroud)

script.awk的内容:

/^>/ {
    file = substr($1,2)
    next
}

{
    a[file]=( a[file] ? a[file] SUBSEP : "") $1
}

END {

    for (i in a) {

        split(a[i],b,SUBSEP)

        while ( ( getline line < ("./F1/" i) ) > 0 ) {

            split(line,c)

            for (j in b) {

                if (c[6]==b[j]) {

                    print line > "./F1/" i ".new"
                }
            }
        }

        system(sprintf("mv ./F1/%s.new ./F1/%s", i, i))
    }
}

Run Code Online (Sandbox Code Playgroud)

或者,这是单行:

awk '/^>/ { file = substr($1,2); next } { a[file]=( a[file] ? a[file] SUBSEP : "") $1 } END { for (i in a) { split(a[i],b,SUBSEP); while ( ( getline line < ("./F1/" i) ) > 0 ) { split(line,c); for (j in b) if (c[6]==b[j]) print line > "./F1/" i ".new" } system(sprintf("mv ./F1/%s.new ./F1/%s", i, i)) } }' data.txt

Run Code Online (Sandbox Code Playgroud)

请注意,此脚本完全按照您的描述执行.它希望文件喜欢1BN5.txt和1B24.txt驻留在F1当前工作目录的文件夹中.它还会覆盖原始文件.如果这不是所需的行为,请放弃system()呼叫.HTH.

结果:

内容F1/1BN5.txt:

ATOM    421  CA  SER A 207      68.627 -29.819   8.533  1.00 50.79           C 
ATOM    421  CA  SER A 207      68.627 -29.819   8.533  1.00 50.79           C  
ATOM    615  H   LEU B 208       3.361  -5.394  -6.021  1.00 10.00           H
ATOM    616  HA  LEU B 211       2.930  -4.494  -3.302  1.00 10.00           H

Run Code Online (Sandbox Code Playgroud)

内容F1/1B24.txt:

ATOM    631  CG  MET B  88      -0.828  -0.688  -7.575  1.00 10.00           C
ATOM    632  SD  MET B  88      -2.380  -0.156  -6.830  1.00 10.00           S
ATOM    643  N   ALA B  92      -1.541  -4.371  -5.366  1.00 10.00           N

Run Code Online (Sandbox Code Playgroud)

归档时间：	13 年，2 月前
查看次数：	320 次
最近记录：	13 年，2 月前