好像我有点迷失了.
我需要解析一个大的(大约100 MB)和非常丑陋的xml文件.如果我使用parsefile它,它返回错误(文档元素之后的垃圾),但它会愉快地解析文件的较小元素.
所以我决定将文件分解为元素并解析它们.因为不鼓励使用正则表达式解析XML(我还是尝试过它,但是我得到了重复的结果),我试过了Text::Balanced.
就像是
use Text::Balanced qw/extract_tagged/;
while (<FILE>) {
my $result = extract_tagged($_, "<tag>");
print $result if defined $result;
}
Run Code Online (Sandbox Code Playgroud)
工作得很好,所以我可以提取符合一行的标记条目.然而,有更大的东西
use Text::Balanced qw/extract_tagged/;
use File::Slurp;
my $test = read_file("file");
my $result = extract_tagged($text, "<tag>");
print $result;
Run Code Online (Sandbox Code Playgroud)
不起作用.它读取文件,但在那里找不到标记的项目.
所以问题是我如何在没有给定标签之间提取任何东西XML::Parser?如果可能的话,我真的需要避免咀嚼它.
PS搜索将返回正则表达式指南,heredoc howtos以及除了我寻找的任何内容
PPS我是个白痴,一直试图解析一个无效的文件.如果解析器失败,仍然很好奇如何切碎文件.
bvr的答案很接近,它确实会检索一些数据,但如果顶级标签丢失则不会.