Rob*_*Rob 2 regex arrays perl bioinformatics fasta
我正在执行正则表达式搜索,并希望只打印出fasta格式的点击(两行数据:第一行以胡萝卜开头">"后跟点击,第二行没有胡萝卜,但仍包含点击信息).
我可以成功生成输出multifasta文件,但无论是否有命中,胡萝卜和换行符都包含在输出文件中.
生成的输出:
>
>
>TAGCTAGC
TAGCTAGC
>
>GCTAGCTA
GCTAGCTA
Run Code Online (Sandbox Code Playgroud)
期望的输出:
>TAGCTAGC
TAGCTAGC
>GCTAGCTA
GCTAGCTA
Run Code Online (Sandbox Code Playgroud)
这是我的代码:
#!/usr/bin/perl
use warnings;
use strict;
open(CLUSTER, ">", "SequencesToCluster.txt") or die $!;
my @TrimmedSequences;
my @ArrayofFiles = glob ("~/BLASTdb/Individual_Sequences_*");
foreach my $file (@ArrayofFiles){
open (my $sequence, $file) or die "can't open file: $!";
while (my $line = <$sequence>){
if ($line !~/^>/){
my $seq = $line;
$seq =~ s/\R//g;
$seq =~ m/([TAGC]{16})(CGGAGCTTTA|GCCATTTCT|TAAAGCTCCG|AGAAATGGGC/;
push(@TrimmedSequences, ">", $1, "\n", $1, "\n");
}
}
}
#Here I believe I need to manipulate the array to get rid of blank fastas
print CLUSTER @TrimmedSequences;
Run Code Online (Sandbox Code Playgroud)
如果您正在过滤数组,那么该工具就是grep.
例如
my @new_array = grep { not /^\s*$/ } @old_array;
Run Code Online (Sandbox Code Playgroud)
这将过滤任何只是空格的元素.在你的情况下,因为它是空的或只是>:
/^>?\s*$/ 代替.
然而,这正在解决首先不需要存在的问题.你可以改为:
$seq =~ m/([TAGC]{16})(CGGAGCTTTA|GCCATTTCT|TAAAGCTCCG|AGAAATGGGC)/
&& push(@TrimmedSequences, ">", $1, "\n", $1, "\n");
Run Code Online (Sandbox Code Playgroud)
只有push当正则表达式匹配时才会这样.