设置 perl 正则表达式搜索从长字符串中的给定位置开始

Ber*_*fer 1 regex perl performance tokenize

我想从一个可能很长的输入代码文本中提取一个简单的回溯解析器的标记。我的设置是使用一个整数光标,它保存文本中的下一个阅读位置,最初为 0。然后我想使用substr提取简单的短标记和 perlre 来提取更复杂的标记。因此,后续正则表达式搜索之间的光标位置可能会向前跳跃(在成功的令牌子字符串匹配之后)或向后跳跃(回溯时)。

我的问题是:如何有效地限制 perlregex 搜索的起始位置,以便它仅从该位置搜索匹配的标记。

例如,我想在示例文本中获取十进制数字标记

my $text = 'long text with 2 numbers 3928 in it';
Run Code Online (Sandbox Code Playgroud)

并且当前光标位置是 25。我目前对这个问题的智慧要么是生成一个(可能效率低下的)子字符串

my $tail = substr $text, 25;
printf "%s\n",
    $tail =~ /^\d+/
    ? "match: $&"
    : "miss";
Run Code Online (Sandbox Code Playgroud)

\G通过(可能效率低下的)额外模式匹配来操作修饰符(注意这里25必须是真实标记器中的变量)

$text =~ /.{25}/gcm;
printf "%s\n",
    $text =~ /\G\d+/
    ? "match: $&"
    : "miss";
Run Code Online (Sandbox Code Playgroud)

后一种选择具有额外的外观弱点,即它可能不是线程安全的。这在我现在正在做的事情中没有问题,但我也在我的问题中为那些可能使用多线程的人强调了这个问题。

cho*_*oba 5

pos是一个左值,可以赋值。

#!/usr/bin/perl
use strict;
use warnings;
use feature qw{ say };

my $text = 'long text with 2 numbers 3928 in it';

pos($text) = 25;

say for $text =~ /(\d+)/g;
Run Code Online (Sandbox Code Playgroud)