XML::Twig - xpath 中的正则表达式因等号 = 失败

Mil*_*ler 3 regex perl xpath xml-twig

使用包含文字等号的 XPath 正则表达式'myelement[@myatt =~ /test=/]'将失败,而使用等号的十六进制代码版本将通过: 'myelement[@myatt =~ /test\x3c/]'。我找不到任何文档来解释XML::Twig为什么会出现这种情况。

设置

我正在练习在处理程序的 xpath 中使用正则表达式XML::Twig。我最近能够在这个答案中成功使用带有边界条件的正则表达式:Updating xml attribute value based on other with Perl,所以我决定看看 twig 是否可以通过攻击这个问题来处理两个正则表达式条件:Best way to match Attribute value in XML element

不幸的是,当我尝试在 xpath 正则表达式中使用普通等号时遇到了障碍,=如以下脚本所示:

use strict;
use warnings;

use XML::Twig;

my $data = do { local $/; <DATA> };

my $t= XML::Twig->new( 
    twig_handlers => {
        q{measValue[@dn =~ /Host=/]} => sub { print "(with =) $_->{att}{name}\n" },
        q{measValue[@dn =~ /Host/]}  => sub { print "(w/o =)  $_->{att}{name}\n" },
    },
    pretty_print => 'indented',
);
$t->parse( $data );

__DATA__
<root>
    <measValue dn="Cabinet=0, Shelf=0, Card=2, Host=2" name="host != 0">
        <r p="1">not it</r>
        <r p="2">not it</r>
    </measValue>
    <measValue dn="Cabinet=0, Shelf=0, Card=2, Host=0" name="good record">
        <r p="1">1.42</r>
        <r p="2">2.28</r>
    </measValue>
    <measValue dn="Cabinet=0, Shelf=0, Card=22, Host=0" name="card != 2">
        <r p="1">not it</r>
        <r p="2">not it</r>
    </measValue>
</root>
Run Code Online (Sandbox Code Playgroud)

输出缺少“with =”:

(w/o =)  host != 0
(w/o =)  good record
(w/o =)  card != 2
Run Code Online (Sandbox Code Playgroud)

正如您所看到的,在正则表达式中包含字面等号会导致它们全部失败。然后我尝试用黑鞭逃跑\=,但这没有帮助。之后我尝试使用\x3c匹配的十六进制代码。

    q{measValue[@dn =~ /Host\x3d/]} => sub { print "(with \\x3d)  $_->{att}{name}\n" },
    q{measValue[@dn =~ /Host\=/]}   => sub { print "(with \\=)    $_->{att}{name}\n" },
Run Code Online (Sandbox Code Playgroud)

输出:

(with \x3d)  host != 0
(with \x3d)  good record
(with \x3d)  card != 2
Run Code Online (Sandbox Code Playgroud)

这使我得出了最终的工作解决方案:

    q{measValue[@dn =~ /Host\x3d0\b/ and @dn =~ /Card\x3d2\b/]} => sub { print "(full match) $_->{att}{name}\n" },
Run Code Online (Sandbox Code Playgroud)

输出:

(full match) good record
Run Code Online (Sandbox Code Playgroud)

系统规格

>perl -v
This is perl 5, version 16, subversion 2 (v5.16.2) built for MSWin32-x64-multi-thread

>cpan -D XML::Twig
Installed: 3.46
CPAN:      3.46  up to date
Run Code Online (Sandbox Code Playgroud)

问题

我的问题是,我找不到任何文档来说明为什么等号=包含在 xpath 正则表达式中时不匹配XML::Twig,也找不到为什么需要如此向后的方式来转义它。另外,还有哪些其他意想不到的正则表达式行为?

我没有问题继续推荐这个模块。但是,我建议人们在处理程序而不是 xpath 中进行正则表达式过滤,除非有人可以推荐一些好的文档和预测行为的方法。

mir*_*rod 5

确实这是一个错误。它已在 XML::Twig 3.47 中修复,该版本正在向您附近的 CPAN 镜像发送。也可以在http://xmltwig.org/xmltwig/获取

“XPath 解析器”并不是真正的解析器,它主要是烟雾和镜子,使用正则表达式将 XPath 表达式转换为 Perl 片段,然后在解析过程中运行。在这种情况下,正则表达式几乎被忽略,除了符号=,它被替换为eq因为它后面跟着看起来像 XML 名称(“主机”)的内容,并且后面没有数字。哎呀!正则表达式现在已被正确识别并保留。

感谢您的错误报告。