ES5*_*S55 1 vim excel perl whitespace text-parsing
我编写了一个脚本来解析输入文本文件并输出三个新的文本文件.输入文件有一个标题行,它从三个输出文件中的每一个中省略.输出文件的每一行都获取每个输入文件行的前三个条目,然后只获得输入行中的一部分条目.所有文件都以制表符分隔.
我的问题是我在输出行的末尾不断获得额外的空白区域.在VIM中查看时,我可以在输出文件行的末尾看到此空白区域.在excel中查看时,我看不到这些额外的空白区域.
以前,使用我的脚本的早期版本,我可以使用excel在行的末尾看到额外的空白,但只能使用"全选"功能.excel中显示的数据是我的perl脚本打印数组的结果,我在其中编码print $outfile "@array".我在stackoverflow上的其他地方学到了键入print "@array"会导致一种插值,它会在我的行中添加空格.由此插值产生的白色空格在excel中不会立即可见,但是当使用"全选"来突出显示数据时可以看到.所以,我把代码print $outfile "@array"改为了print $outfile @array.此更改导致输出文件仍然在每个输出行的末尾保持空白,在VIM中可见但在excel中不可见的空白区域.这是我被困的地方.
这是我的下面的脚本.第一部分打开并读取输入文件.然后声明一些数组.接下来,a for loop开始逐行开始解析输入文件,并将适当的内容推送到适当的数组中.对一个阵列实施替换.同样,所有文件都以制表符分隔.最后,阵列打印到三个outfiles,使用措辞print $outfile @array而不是print $outfile "@array".
你看到了问题吗?谢谢!
#!/usr/bin/perl
use strict; use warnings;
die "usage: [ imputed genotype.file ]\n" unless @ARGV == 1;
my $imputed = $ARGV[ 0 ];
open ( my $FILE, "<$imputed" );
my @data = <$FILE>;
my @ADD = ();
my @DOM = ();
my @IMP = ();
for ( my $i = 1; $i < scalar @data; $i++ ) ### for each line data[i], and use $i = 1 to
### skip header, 0 to include it output
{
my $line = $data[ $i ];
chomp $line;
my @entries = split( '\t', $data[ $i ] );
push( @ADD, "$entries[ 0 ]\t$entries[ 1 ]\t$entries[ 2 ]\t" );
push( @DOM, "$entries[ 0 ]\t$entries[ 1 ]\t$entries[ 2 ]\t" );
push( @IMP, "$entries[ 0 ]\t$entries[ 1 ]\t$entries[ 2 ]\t" );
for ( my $i = 3; $i < scalar @entries - 1 ; $i+=3 ) ### for each entry per line
{
push( @ADD, "$entries[ $i ]\t" );
push( @DOM, "$entries[ $i + 1 ]\t" );
if ( $entries[ $i + 2 ] eq 'NA' ) ### to replace any occuring "NA"s with blanks
{
$entries[ $i + 2 ] =~ s/NA//;
}
push( @IMP, "$entries[ $i + 2 ]\t" );
}
push( @ADD, "\n" );
push( @DOM, "\n" );
push( @IMP, "\n" );
} ### for loop
open my $Afile, ">$imputed" . "_ADD.txt" or die $!;
print $Afile @ADD;
close $Afile;
open my $Dfile, ">$imputed" . "_DOM.txt" or die $!;
print $Dfile @DOM;
close $Dfile;
open my $Ifile, ">$imputed" . "_IMP.txt" or die $!;
print $Ifile @IMP;
close $Ifile;
Run Code Online (Sandbox Code Playgroud)
你在数组元素的末尾使用\ t的问题.使用功能
join( "\t", ...)
Run Code Online (Sandbox Code Playgroud)
代替.
我的意思是,只需创建输出数组,然后使用
print join "\t", @output;
Run Code Online (Sandbox Code Playgroud)
有一个未经测试的例子:
#!/usr/bin/perl
use strict; use warnings;
die "usage: [ imputed genotype.file ]\n" unless @ARGV == 1;
open my $Afile, ">$imputed" . "_ADD.txt" or die $!;
open my $Dfile, ">$imputed" . "_DOM.txt" or die $!;
open my $Ifile, ">$imputed" . "_IMP.txt" or die $!;
<>; #skip header
while(<>){
chomp;
my @entries = split( '\t', $_ );
my @ADD = ();
my @DOM = ();
my @IMP = ();
push( @ADD, $entries[ 0 ], $entries[ 1 ], $entries[ 2 ]);
push( @DOM, $entries[ 0 ], $entries[ 1 ], $entries[ 2 ]);
push( @IMP, $entries[ 0 ], $entries[ 1 ], $entries[ 2 ]);
for ( my $i = 3; $i < scalar @entries - 1 ; $i+=3 ) { ### for each entry per line
push( @ADD, $entries[ $i ] );
push( @DOM, $entries[ $i + 1 ] );
$entries[ $i + 2 ] =~ s/^NA$//;
push( @IMP, $entries[ $i + 2 ] );
}
print $Afile join( "\t", @ADD) , "\n";
print $Dfile join( "\t", @DOM) , "\n";
print $Ifile join( "\t", @IMP) , "\n";
} ### for loop
close $Afile;
close $Dfile;
close $Ifile;
Run Code Online (Sandbox Code Playgroud)