use*_*508 4 perl search parsing peek
我有一段代码打开一个文件并解析它.此文本文档具有冗余结构并具有多个条目.我需要在循环中查看是否有新条目,如果有,我将能够解析我的程序提取的所有数据.让我首先展示我到目前为止的实施情况
use strict;
my $doc = open(my $fileHandler, "<", "test.txt");
while(my $line = <$fileHandler>) {
## right here I want to look at the next line to see if
## $line =~ m/>/ where > denotes a new entry
}
Run Code Online (Sandbox Code Playgroud)
尝试自己处理迭代:
my $line = <$fileHandler>;
while(1) { # keep looping until I say so
my $nextLine = <$fileHandler>;
if ($line =~ m/>/ || !defined $nextLine) {
### Do the stuff
}
### Do any other stuff;
last unless defined $nextLine;
$line = $nextLine;
}
Run Code Online (Sandbox Code Playgroud)
我在if语句中添加了额外的检查,假设您还希望处理到达文件末尾时的内容.
或者,正如friedo所建议的那样,如果文件可以放入内存中,您可以立即将整个内容加载到数组中:
my @lines = <$fileHandler>;
for (my $i = 0; $i <= $#lines; $i++) {
if ($i == $#lines || $lines[$i+1] =~ />/) {
### Do the stuff
}
}
Run Code Online (Sandbox Code Playgroud)
这更灵活,因为您可以按任何顺序访问文件的任意行,但如上所述,文件必须足够小以适应内存.
处理这些问题的一种好方法是使用Tie::File
,它允许您将文件视为数组,而不会将文件实际加载到内存中.它也是perl v5.7.3以来的核心模块.
use Tie::File;
tie my @file, 'Tie::File', "test.txt" or die $!;
for my $linenr (0 .. $#file) { # loop over line numbers
if ($file[$linenr] =~ /foo/) { # this is the current line
if ($file[$linenr + 1] =~ /^>/ && # this is the next line
$linenr <= $#file) { # don't go past end of file
# do stuff
}
}
}
untie @file; # all done
Run Code Online (Sandbox Code Playgroud)