如何在字符串中捕捉罗马数字？

Question

如何在字符串中捕捉罗马数字？

我想在字符串中捕捉罗马数字(80以下的数字足够好).我找到了很好的基础,你如何只使用正则表达式匹配有效的罗马数字？.问题是:它处理整个字符串.我还没有找到如何检测字符串内的罗马数字的解决方案,因为没有强制要求,每个组都可以是可选的.到目前为止我尝试过这样的事情:

my $x = ' some text I-LXIII iv more ';

if (  $x =~  s/\b(
                    (
                        (XC|XL|L?X{0,3}) # first group 10-90
                    |
                        (IX|IV|V?I{0,3}) # second group 1-9
                    )+
            )
        \b/>$1</xgi ) { # mark every occurrence
    say $x;
}

__END__
 ><some>< ><text>< ><>I<><-><>LXIII<>< ><>iv<>< ><more>< 
 desired output:
  some text >I<->LXIII< >iv< more

Run Code Online (Sandbox Code Playgroud)

因此,这个也可以自己捕获字边界,因为所有组都是可选的.如何完成它？如何强制执行这两个组中的一组,而无法确定哪一组是强制性的？其他捕捉罗马人的方法也很受欢迎.

Answer 1

Bor*_*din 2

这就是 Perl 让我们失望的地方，因为它缺少其他地方可用的\<and （开始和结束词边界）结构。即使不消耗任何目标字符串，\>类似的模式也会匹配，因为第二个模式会再次匹配起始单词边界。\b...\b...\b

然而，结束词边界只是(?<=\w)(?!\w)为了让我们可以用它来代替。

这个程序会做你想做的事。它会预先查找包含在单词边界中的潜在罗马字符字符串（因此我们必须位于起始单词边界），然后检查后面没有单词字符的合法罗马数字（所以现在我们' re 位于结束词边界）。

请注意，我已经颠倒了你的>...<标记，因为它们让我感到困惑。

use strict; use warnings; use feature 'say'; my $x = ' some text I-LXIII iv more '; if ( $x =~ s{ (?= \b [CLXVI]+ \b ) ( (?:XC|XL|L?X{0,3})? (?:IX|IV|V?I{0,3})? ) (?!\w) } {<$1>}xgi ) { say $x; }
Run Code Online (Sandbox Code Playgroud)
输出

some text <I>-<LXIII> <iv> more
Run Code Online (Sandbox Code Playgroud)

归档时间：	13 年，2 月前
查看次数：	398 次
最近记录：	13 年，2 月前