从阵列中删除空白正则表达式匹配

Question

从阵列中删除空白正则表达式匹配

Rob*_*Rob 2 regex arrays perl bioinformatics fasta

我正在执行正则表达式搜索,并希望只打印出fasta格式的点击(两行数据:第一行以胡萝卜开头">"后跟点击,第二行没有胡萝卜,但仍包含点击信息).
我可以成功生成输出multifasta文件,但无论是否有命中,胡萝卜和换行符都包含在输出文件中.

生成的输出:

    > 

    >

    >TAGCTAGC
    TAGCTAGC
    >

    >GCTAGCTA
    GCTAGCTA

Run Code Online (Sandbox Code Playgroud)

期望的输出:

    >TAGCTAGC
    TAGCTAGC  
    >GCTAGCTA  
    GCTAGCTA

Run Code Online (Sandbox Code Playgroud)

这是我的代码:

    #!/usr/bin/perl 
    use warnings; 
    use strict; 

    open(CLUSTER, ">", "SequencesToCluster.txt") or die $!; 

    my @TrimmedSequences; 

    my @ArrayofFiles = glob ("~/BLASTdb/Individual_Sequences_*"); 

    foreach my $file (@ArrayofFiles){ 
        open (my $sequence, $file) or die "can't open file: $!"; 
        while (my $line = <$sequence>){ 
            if ($line !~/^>/){ 
            my $seq = $line; 
            $seq =~ s/\R//g; 
            $seq =~ m/([TAGC]{16})(CGGAGCTTTA|GCCATTTCT|TAAAGCTCCG|AGAAATGGGC/; 
            push(@TrimmedSequences, ">", $1, "\n", $1, "\n");  
            } 
       } 
    } 
    #Here I believe I need to manipulate the array to get rid of blank fastas
    print CLUSTER @TrimmedSequences;

Run Code Online (Sandbox Code Playgroud)

Answer 1

Sob*_*que 5

如果您正在过滤数组,那么该工具就是grep.

例如

my @new_array = grep { not /^\s*$/ } @old_array;

Run Code Online (Sandbox Code Playgroud)

这将过滤任何只是空格的元素.在你的情况下,因为它是空的或只是>:

/^>?\s*$/ 代替.

然而,这正在解决首先不需要存在的问题.你可以改为:

$seq =~ m/([TAGC]{16})(CGGAGCTTTA|GCCATTTCT|TAAAGCTCCG|AGAAATGGGC)/ 
       && push(@TrimmedSequences, ">", $1, "\n", $1, "\n");

Run Code Online (Sandbox Code Playgroud)

只有push当正则表达式匹配时才会这样.

归档时间：	10 年，1 月前
查看次数：	73 次
最近记录：	10 年，1 月前