如何在字符串中捕捉罗马数字?

w.k*_*w.k 6 regex perl

我想在字符串中捕捉罗马数字(80以下的数字足够好).我找到了很好的基础,你如何只使用正则表达式匹配有效的罗马数字?.问题是:它处理整个字符串.我还没有找到如何检测字符串内的罗马数字的解决方案,因为没有强制要求,每个组都可以是可选的.到目前为止我尝试过这样的事情:

my $x = ' some text I-LXIII iv more ';

if (  $x =~  s/\b(
                    (
                        (XC|XL|L?X{0,3}) # first group 10-90
                    |
                        (IX|IV|V?I{0,3}) # second group 1-9
                    )+
            )
        \b/>$1</xgi ) { # mark every occurrence
    say $x;
}

__END__
 ><some>< ><text>< ><>I<><-><>LXIII<>< ><>iv<>< ><more>< 
 desired output:
  some text >I<->LXIII< >iv< more 
Run Code Online (Sandbox Code Playgroud)

因此,这个也可以自己捕获字边界,因为所有组都是可选的.如何完成它?如何强制执行这两个组中的一组,而无法确定哪一组是强制性的?其他捕捉罗马人的方法也很受欢迎.

Bor*_*din 2

这就是 Perl 让我们失望的地方,因为它缺少其他地方可用的\<and (开始和结束词边界)结构。即使不消耗任何目标字符串,\>类似的模式也会匹配,因为第二个模式会再次匹配起始单词边界。\b...\b...\b

然而,结束词边界只是(?<=\w)(?!\w)为了让我们可以用它来代替。

这个程序会做你想做的事。它会预先查找包含在单词边界中的潜在罗马字符字符串(因此我们必须位于起始单词边界),然后检查后面没有单词字符的合法罗马数字(所以现在我们' re 位于结束词边界)。

请注意,我已经颠倒了你的>...<标记,因为它们让我感到困惑。

use strict;
use warnings;

use feature 'say';

my $x = ' some text I-LXIII iv more ';

if ( $x =~ s{
    (?= \b [CLXVI]+ \b )
    (
      (?:XC|XL|L?X{0,3})?
      (?:IX|IV|V?I{0,3})?
    )
    (?!\w)
    }
    {<$1>}xgi ) {

    say $x;
}
Run Code Online (Sandbox Code Playgroud)

输出

some text <I>-<LXIII> <iv> more 
Run Code Online (Sandbox Code Playgroud)