Mil*_*ler 3 regex perl xpath xml-twig
使用包含文字等号的 XPath 正则表达式'myelement[@myatt =~ /test=/]'将失败,而使用等号的十六进制代码版本将通过: 'myelement[@myatt =~ /test\x3c/]'。我找不到任何文档来解释XML::Twig为什么会出现这种情况。
设置
我正在练习在处理程序的 xpath 中使用正则表达式XML::Twig。我最近能够在这个答案中成功使用带有边界条件的正则表达式:Updating xml attribute value based on other with Perl,所以我决定看看 twig 是否可以通过攻击这个问题来处理两个正则表达式条件:Best way to match Attribute value in XML element。
不幸的是,当我尝试在 xpath 正则表达式中使用普通等号时遇到了障碍,=如以下脚本所示:
use strict;
use warnings;
use XML::Twig;
my $data = do { local $/; <DATA> };
my $t= XML::Twig->new(
twig_handlers => {
q{measValue[@dn =~ /Host=/]} => sub { print "(with =) $_->{att}{name}\n" },
q{measValue[@dn =~ /Host/]} => sub { print "(w/o =) $_->{att}{name}\n" },
},
pretty_print => 'indented',
);
$t->parse( $data );
__DATA__
<root>
<measValue dn="Cabinet=0, Shelf=0, Card=2, Host=2" name="host != 0">
<r p="1">not it</r>
<r p="2">not it</r>
</measValue>
<measValue dn="Cabinet=0, Shelf=0, Card=2, Host=0" name="good record">
<r p="1">1.42</r>
<r p="2">2.28</r>
</measValue>
<measValue dn="Cabinet=0, Shelf=0, Card=22, Host=0" name="card != 2">
<r p="1">not it</r>
<r p="2">not it</r>
</measValue>
</root>
Run Code Online (Sandbox Code Playgroud)
输出缺少“with =”:
(w/o =) host != 0
(w/o =) good record
(w/o =) card != 2
Run Code Online (Sandbox Code Playgroud)
正如您所看到的,在正则表达式中包含字面等号会导致它们全部失败。然后我尝试用黑鞭逃跑\=,但这没有帮助。之后我尝试使用\x3c匹配的十六进制代码。
q{measValue[@dn =~ /Host\x3d/]} => sub { print "(with \\x3d) $_->{att}{name}\n" },
q{measValue[@dn =~ /Host\=/]} => sub { print "(with \\=) $_->{att}{name}\n" },
Run Code Online (Sandbox Code Playgroud)
输出:
(with \x3d) host != 0
(with \x3d) good record
(with \x3d) card != 2
Run Code Online (Sandbox Code Playgroud)
这使我得出了最终的工作解决方案:
q{measValue[@dn =~ /Host\x3d0\b/ and @dn =~ /Card\x3d2\b/]} => sub { print "(full match) $_->{att}{name}\n" },
Run Code Online (Sandbox Code Playgroud)
输出:
(full match) good record
Run Code Online (Sandbox Code Playgroud)
系统规格
>perl -v
This is perl 5, version 16, subversion 2 (v5.16.2) built for MSWin32-x64-multi-thread
>cpan -D XML::Twig
Installed: 3.46
CPAN: 3.46 up to date
Run Code Online (Sandbox Code Playgroud)
问题
我的问题是,我找不到任何文档来说明为什么等号=包含在 xpath 正则表达式中时不匹配XML::Twig,也找不到为什么需要如此向后的方式来转义它。另外,还有哪些其他意想不到的正则表达式行为?
我没有问题继续推荐这个模块。但是,我建议人们在处理程序而不是 xpath 中进行正则表达式过滤,除非有人可以推荐一些好的文档和预测行为的方法。
确实这是一个错误。它已在 XML::Twig 3.47 中修复,该版本正在向您附近的 CPAN 镜像发送。也可以在http://xmltwig.org/xmltwig/获取
“XPath 解析器”并不是真正的解析器,它主要是烟雾和镜子,使用正则表达式将 XPath 表达式转换为 Perl 片段,然后在解析过程中运行。在这种情况下,正则表达式几乎被忽略,除了符号=,它被替换为eq因为它后面跟着看起来像 XML 名称(“主机”)的内容,并且后面没有数字。哎呀!正则表达式现在已被正确识别并保留。
感谢您的错误报告。
| 归档时间: |
|
| 查看次数: |
539 次 |
| 最近记录: |