像Perl或Python中的lex一样模拟功能

#!/usr/bin/perl
use strict;
use warnings;
use WWW::Mechanize;

my $mech = WWW::Mechanize->new;

$mech->get("http://stackoverflow.com/");

$mech->success or die "Oh no! Couldn't fetch stackoverflow.com";

foreach my $link ($mech->links) {
    print "* [",$link->text, "] points to ", $link->url, "\n";
}

Run Code Online (Sandbox Code Playgroud)

在主循环中,每个$link都是WWW :: Mechanize :: Link对象,因此您不仅限于获取文本和URL.

祝一切顺利,

保罗

Answer 3

Jer*_*rub 5

听起来你真的只想解析HTML,我建议你看看这些精彩的软件包:

要么!您可以使用类似以下之一的解析器:

PyParsing
DParser - 具有良好python绑定的GLR解析器.
ANTLR - 一个递归的解析器生成器,可以生成python代码.

这个例子来自BeautifulSoup 文档:

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re

links = SoupStrainer('a')
[tag for tag in BeautifulSoup(doc, parseOnlyThese=links)]
# [<a href="http://www.bob.com/">success</a>, 
#  <a href="http://www.bob.com/plasma">experiments</a>, 
#  <a href="http://www.boogabooga.net/">BoogaBooga</a>]

linksToBob = SoupStrainer('a', href=re.compile('bob.com/'))
[tag for tag in BeautifulSoup(doc, parseOnlyThese=linksToBob)]
# [<a href="http://www.bob.com/">success</a>, 
#  <a href="http://www.bob.com/plasma">experiments</a>]

Run Code Online (Sandbox Code Playgroud)

归档时间：	17 年，2 月前
查看次数：	1357 次
最近记录：	8 年，8 月前