rub*_*ots 5 xml perl xml-parsing
在遇到包含大文本节点的xml数据文件后,我找了一些方法来在我的数据处理脚本中读取和评估它们.
xml文件是用于分子建模应用程序的3D坐标文件,具有此结构(示例):
<?xml version="1.0" encoding="UTF-8"?>
<hoomd_xml version="1.4">
<configuration>
<position>
-0.101000 0.011000 -40.000000
-0.077000 0.008000 -40.469000
-0.008000 0.001000 -40.934000
-0.301000 0.033000 -41.157000
0.213000 -0.023000 -41.348000
...
... 300,000 to 500,000 lines may follow >>
...
-0.140000 0.015000 -42.556000
</position>
<next_huge_section_of_the_same_pattern>
...
...
...
</next_huge_section_of_the_same_pattern>
</configuration>
</hoomd_xml>
Run Code Online (Sandbox Code Playgroud)
每个xml文件包含几个巨大的文本节点,大小在60MB到100MB之间,具体取决于内容.
我首先使用XML :: Simple尝试了naíveapproch,但加载器将永远需要最初解析文件:
...
my $data = $xml->XMLin('structure_80mb.xml');
...
Run Code Online (Sandbox Code Playgroud)
并停止" 内部错误:巨大的输入查找 ",所以这种方法不太实用.
下一个尝试是使用XML :: LibXML进行读取 - 但是在这里,初始加载器会立即挽救,并显示错误消息" 解析器错误:xmlSAX2Characters:huge text node ".
为了在stackoverflow上写这个主题,我为自己编写了一个q&d解析器并通过它发送文件(在将xx MB xml文件拖入标量之后$xml):
...
# read the <position> data from in-memory xml file
my @Coord = xml_parser_hack('position', $xml);
...
Run Code Online (Sandbox Code Playgroud)
它将每行的数据作为数组返回,在几秒钟内完成,如下所示:
sub xml_parser_hack {
my ($tagname, $xml) = @_;
return () unless $xml =~ /^</;
my @Data = ();
my ($p0, $p1) = (undef,undef);
$p0 = $+[0] if $xml =~ /^<$tagname[^>]*>[^\r\n]*[r\n]+/msg; # start tag
$p1 = $-[0] if $xml =~ /^<\/$tagname[^>]*>/msg; # end tag
return () unless defined $p0 && defined $p1;
my @Lines = split /[\r\n]+/, substr $xml, $p0, $p1-$p0;
for my $line (@Lines) {
push @Data, [ split /\s+/, $line ];
}
return @Data;
}
Run Code Online (Sandbox Code Playgroud)
到目前为止,此工作正常,但当然不能考虑"生产就绪".
问:如何使用Perl模块读取文件?我会选择哪个模块?
提前致谢
RBO
附录:在阅读了choroba的评论后,我更深入地研究了XML :: LibXML.文件的打开my $reader = XML::LibXML::Reader->new(location =>'structure_80mb.xml'); 工作,与我之前的想法相反.如果我尝试访问标记下方的文本节点,则会发生错误:
...
while ($reader->read) {
# bails out in the loop iteration after accessing the <position> tag,
# if the position's text node is accessed
# -- xmlSAX2Characters: huge text node ---
...
Run Code Online (Sandbox Code Playgroud)
我能够使用 XML::LibXML 模拟答案。试试这个,如果不起作用请告诉我。我创建了一个元素中包含超过 500k 行的 XML 文档position,并且我能够解析它并打印它的内容:
use strict;
use warnings;
use XML::LibXML;
my $xml = XML::LibXML->load_xml(location => '/perl/test.xml');
my $nodes = $xml->findnodes('/hoomd_xml/configuration/position');
print $nodes->[0]->textContent . "\n";
print scalar(@{$nodes}) . "\n";
Run Code Online (Sandbox Code Playgroud)
我习惯findnodes使用 XPath 表达式来提取我想要的所有节点。 $nodes只是一个数组引用,因此您可以根据文档中实际拥有的节点数量循环遍历它。
| 归档时间: |
|
| 查看次数: |
2948 次 |
| 最近记录: |