我注意到我的Ruby(1.9)脚本中存在一些极端延迟,经过一些挖掘后,它归结为正则表达式匹配.我在Perl和Ruby中使用以下测试脚本:
Perl的:
$fname = shift(@ARGV);
open(FILE, "<$fname" );
while (<FILE>) {
if ( /(.*?) \|.*?SENDING REQUEST.*?TID=(.*?),/ ) {
print "$1: $2\n";
}
}
Run Code Online (Sandbox Code Playgroud)
红宝石:
f = File.open( ARGV.shift )
while ( line = f.gets )
if /(.*?) \|.*?SENDING REQUEST.*?TID=(.*?),/.match(line)
puts "#{$1}: #{$2}"
end
end
Run Code Online (Sandbox Code Playgroud)
我对两个脚本使用相同的输入,一个只有44290行的文件.每个人的时间安排是:
Perl的:
xenofon@cpm:~/bin/local/project$ time ./try.pl input >/dev/null
real 0m0.049s
user 0m0.040s
sys 0m0.000s
Run Code Online (Sandbox Code Playgroud)
红宝石:
xenofon@cpm:~/bin/local/project$ time ./try.rb input >/dev/null
real 1m5.106s
user 1m4.910s
sys 0m0.010s
Run Code Online (Sandbox Code Playgroud)
我想我正在做一些非常愚蠢的事情,有什么建议吗?
谢谢
regex = Regexp.new(/(.*?) \|.*?SENDING REQUEST.*?TID=(.*?),/)
f = File.open( ARGV.shift ).each do |line|
if regex .match(line)
puts "#{$1}: #{$2}"
end
end
Run Code Online (Sandbox Code Playgroud)
要么
regex = Regexp.new(/(.*?) \|.*?SENDING REQUEST.*?TID=(.*?),/)
f = File.open( ARGV.shift )
f.each_line do |line|
if regex.match(line)
puts "#{$1}: #{$2}"
end
Run Code Online (Sandbox Code Playgroud)
从perlretut章节:在Perl部分中使用正则表达式 - "搜索和替换"
(即使正则表达式出现在循环中,Perl也足够聪明,只能编译一次.)
我不太了解Ruby,但我怀疑它确实在每个循环中编译正则表达式.
(试试LaGrandMere的答案来验证它).
一个可能的区别是正在执行的回溯量.Perl在回溯时可能会更好地修剪搜索树(即注意到模式的一部分不可能匹配).它的正则表达式引擎经过高度优化.
首先,添加一个领先的« ^»可以产生巨大的差异.如果模式从位置0开始不匹配,它也不会在起始位置1匹配!所以不要试图在位置1匹配.
沿着同样的路线,« .*?»并不像你想象的那样限制,用一个更有限的模式替换它的每个实例可以防止大量的回溯.
你为什么不试试:
/
^
(.*?) [ ]\|
(?:(?!SENDING[ ]REQUEST).)* SENDING[ ]REQUEST
(?:(?!TID=).)* TID=
([^,]*) ,
/x
Run Code Online (Sandbox Code Playgroud)
(不确定.*?用« [^|]» 替换第一个« » 是否安全,所以我没有.)
(至少对于匹配单个串图案,(?:(?!PAT).)是PAT作为[^CHAR]是CHAR).
/s如果« .»被允许匹配换行符,使用可能会加快速度,但我认为它很小.
使用« »而不是« »来匹配下面的空间可能会在Ruby中略快一些.(它们在最近的Perl版本中是相同的.)我使用后者,因为它更具可读性.\space[space]/x