使用或不使用链接匹配HTML的正则表达式

Question

使用或不使用链接匹配HTML的正则表达式

我想能够在页面中显示的HTML块中获取"Target":

<h3>
    <a href="http://link">              Target
    </a>            </h3>

Run Code Online (Sandbox Code Playgroud)

我可以指望可靠的间距.我不能指望的是"目标"将始终包含在锚标记中.有时,它看起来像这样:

<h3>
                    Target
                </h3>

Run Code Online (Sandbox Code Playgroud)

我可以匹配第一个版本并使用此正则表达式轻松提取"目标":

/<h3>\s+<a href=.*>\s+(.*)\s+<\/a>\s+<\/h3>/

Run Code Online (Sandbox Code Playgroud)

但是我很难写出一个能与之匹敌的东西.有任何想法吗？

Answer 1

Que*_*tin 9

不要使用正则表达式来解析HTML.在大多数情况下,它更值得痛苦.使用旨在解析HTML的库.

#!/usr/bin/perl

use v5.16;
use strict;
use warnings;
use HTML::TreeBuilder;

my $data = qq{<body><h3>
<a href="http://link">              Target
</a>            </h3></body>
};

my $otherdata = qq{<body><h3>
              Target
            </h3></body>
};

my $t = HTML::TreeBuilder->new_from_content($data);
say $t->look_down(_tag => "h3")->as_text();


$t = HTML::TreeBuilder->new_from_content($otherdata);
say $t->look_down(_tag => "h3")->as_text();

Run Code Online (Sandbox Code Playgroud)

HTML解析器通常仍然更好地处理HTML的小片段而不是正则表达式. (2认同)

归档时间：	10 年，1 月前
查看次数：	58 次
最近记录：	10 年，1 月前