如何使用Perl可靠地解析QuakeLive播放器配置文件?

Gur*_*rzo 3 html perl web-crawler

我目前正在研究Perl脚本以从QuakeLive网站收集数据.一切都很顺利,直到我无法得到一组数据.

我正在使用正则表达式,除了最喜欢的竞技场,武器和游戏类型之外,它们还可以用于所有事情.我只需要在$ 1中获取这三个元素的名称以便进一步处理.

我尝试重新制作收藏夹图片,但没有成功.如果它有用,我已经在脚本中使用了WWW :: Mechanize.

我认为问题可能与那些元素的段落的类名有关,而前一个是无类的.

您可以在此处找到示例个人资料.

请注意,对于页面的上一部分,它使用如下代码:

$content =~ /<b>Wins:<\/b> (.*?)<br \/>/;
$wins = $1;
print "Wins: $wins\n";
Run Code Online (Sandbox Code Playgroud)

Sin*_*nür 7

当前的问题是你有:

<p class="prf_faves">
<img src="http://cdn.quakelive.com/web/2010092807/images/profile/none_v2010092807.0.gif" 
     width="17" height="17" alt="" class="fl fivepxhr" />
                <b>Arena:</b> Campgrounds
                <div class="cl"></div>
            </p>
Run Code Online (Sandbox Code Playgroud)

也就是说,没有<br />追随像Arena这样的收藏价值.现在,正确的方法是使用正确的HTML解析器.脆弱的解决方案是调整您的模式(未经测试):

my ($favarena) = $content =~ m{<b>Arena:</b> ([^<]+)};
Run Code Online (Sandbox Code Playgroud)

这应该把一切都到<了下<div>$favarena.现在,如果所有竞技场都是单个单词,其中没有空格,

my ($favarena) = $content =~ m{<b>Arena:</b> (\S+)};
Run Code Online (Sandbox Code Playgroud)

可以省去你之后不得不修剪空白的麻烦.

请注意,这样的基于正则表达式的解决方案很容易被简单的事情所愚弄,例如源代码中注释掉的片段.例如,如果要将源更改为:

<p class="prf_faves">
<img src="http://cdn.quakelive.com/web/2010092807/images/profile/none_v2010092807.0.gif" 
     width="17" height="17" alt="" class="fl fivepxhr" />
<!-- <b>Arena: </b> here -->
                <b>Arena:</b> Campgrounds
                <div class="cl"></div>
            </p>
Run Code Online (Sandbox Code Playgroud)

你的脚本会遇到麻烦,因为使用HTML解析器的解决方案不会.

使用HTML :: TokeParser :: Simple的示例:

#!/usr/bin/perl

use strict; use warnings;

use HTML::TokeParser::Simple;

my $p = HTML::TokeParser::Simple->new( 'martianbuddy.html' );

while ( my $tag = $p->get_tag('p') ) {
    next unless $tag->is_start_tag;
    next unless defined (my $class = $tag->get_attr('class'));
    next unless grep { /^prf_faves\z/ } split ' ', $class;

    my $fav = $p->get_tag('b');
    my $type = $p->get_text('/b');
    my $value = $p->get_text('/p');
    $value =~ s/\s+\z//;

    print "$type = $value\n";
}
Run Code Online (Sandbox Code Playgroud)

输出:

Arena:  Campgrounds
Game Type:  Clan Arena
Weapon:  Rocket Launcher

并且,这是使用HTML :: TreeBuilder的示例:

#!/usr/bin/perl

use strict; use warnings;

use HTML::TreeBuilder;
use YAML;

my $tree = HTML::TreeBuilder->new;
$tree->parse_file('martianbuddy.html');

my @p = $tree->look_down(_tag => 'p', sub {
        return unless defined (my $class = $_[0]->attr('class'));
        return unless grep { /^prf_faves\z/ } split ' ', $class;
        return 1;
    }
);

for my $p ( @p ) {
    my $text = $p->as_text;
    $text =~ s/^\s+//;
    my ($type, $value) = split ': ', $text;
    print "$type: $value\n";
}
Run Code Online (Sandbox Code Playgroud)

输出:

Arena: Campgrounds 
Game Type: Clan Arena 
Weapon: Rocket Launcher

鉴于该文档是HTML片段而不是完整文档,您将在基于HTML :: Parser的模块上获得更多成功,而不是那些期望在格式良好的XML文档上运行的模块.


zig*_*don 5

对这个特定任务使用正则表达式并不理想.有太多东西可能会改变,而你没有利用HTML页面的固有结构.您是否考虑过使用类似的东西HTML::TreeBuilder?它将允许您说"让我获得名为武器的表中第3个表格单元格的值"等.