正则表达式 - Ruby vs Perl

xpa*_*pad 24 ruby regex perl

我注意到我的Ruby(1.9)脚本中存在一些极端延迟,经过一些挖掘后,它归结为正则表达式匹配.我在Perl和Ruby中使用以下测试脚本:

Perl的:

$fname = shift(@ARGV);
open(FILE, "<$fname" );
while (<FILE>) {
    if ( /(.*?) \|.*?SENDING REQUEST.*?TID=(.*?),/ ) {
        print "$1: $2\n";
    }
}
Run Code Online (Sandbox Code Playgroud)

红宝石:

f = File.open( ARGV.shift )
while ( line = f.gets )
    if /(.*?) \|.*?SENDING REQUEST.*?TID=(.*?),/.match(line)
        puts "#{$1}: #{$2}"
    end
end
Run Code Online (Sandbox Code Playgroud)

我对两个脚本使用相同的输入,一个只有44290行的文件.每个人的时间安排是:

Perl的:

xenofon@cpm:~/bin/local/project$ time ./try.pl input >/dev/null

real    0m0.049s
user    0m0.040s
sys     0m0.000s
Run Code Online (Sandbox Code Playgroud)

红宝石:

xenofon@cpm:~/bin/local/project$ time ./try.rb input >/dev/null

real    1m5.106s
user    1m4.910s
sys     0m0.010s
Run Code Online (Sandbox Code Playgroud)

我想我正在做一些非常愚蠢的事情,有什么建议吗?

谢谢

LaG*_*ere 7

regex = Regexp.new(/(.*?) \|.*?SENDING REQUEST.*?TID=(.*?),/)

f = File.open( ARGV.shift ).each do |line|
    if regex .match(line)
        puts "#{$1}: #{$2}"
    end
end
Run Code Online (Sandbox Code Playgroud)

要么

regex = Regexp.new(/(.*?) \|.*?SENDING REQUEST.*?TID=(.*?),/)

f = File.open( ARGV.shift )
f.each_line do |line|
  if regex.match(line)
    puts "#{$1}: #{$2}"
  end
Run Code Online (Sandbox Code Playgroud)

  • 我尝试了你的建议,但没有变化,执行时间仍然是1m5.134s (3认同)
  • 一些挑剔:你需要在完成它之后释放文件描述符,方法是调用`close`或者使用`File.open('filename'){| file | }`,确保文件关闭.另外,`/# {...}}`表示`Regexp`字面值; 调用`Regexp.new`是不必要的. (2认同)
  • @texasbruce:当perl(解释器)发现一个常量正则表达式时,它会编译并缓存它以供重用.这与大多数其他语言相反,其中此步骤必须由程序员手动完成.(见[stema的回答.](http://stackoverflow.com/a/10243848/18097)) (2认同)

ste*_*ema 5

perlretut章节:在Perl部分中使用正则表达式 - "搜索和替换"

(即使正则表达式出现在循环中,Perl也足够聪明,只能编译一次.)

我不太了解Ruby,但我怀疑它确实在每个循环中编译正则表达式.
(试试LaGrandMere的答案来验证它).


ike*_*ami 5

一个可能的区别是正在执行的回溯量.Perl在回溯时可能会更好地修剪搜索树(即注意到模式的一部分不可能匹配).它的正则表达式引擎经过高度优化.

首先,添加一个领先的« ^»可以产生巨大的差异.如果模式从位置0开始不匹配,它也不会在起始位置1匹配!所以不要试图在位置1匹配.

沿着同样的路线,« .*?»并不像你想象的那样限制,用一个更有限的模式替换它的每个实例可以防止大量的回溯.

你为什么不试试:

/
    ^
    (.*?)                       [ ]\|
    (?:(?!SENDING[ ]REQUEST).)* SENDING[ ]REQUEST
    (?:(?!TID=).)*              TID=
    ([^,]*)                     ,
/x
Run Code Online (Sandbox Code Playgroud)

(不确定.*?用« [^|]» 替换第一个« » 是否安全,所以我没有.)

(至少对于匹配单个串图案,(?:(?!PAT).)PAT作为[^CHAR]CHAR).

/s如果« .»被允许匹配换行符,使用可能会加快速度,但我认为它很小.

使用« »而不是« »来匹配下面的空间可能会在Ruby中略快一些.(它们在最近的Perl版本中是相同的.)我使用后者,因为它更具可读性.\space[space]/x