获取网站所有页面的Perl模块？

Question

那里有一个模块可以给我链接到网站的所有页面吗？

我为什么需要它:我想抓取一些网站并在其中搜索标签,仅在主页上搜索是不够的.

谢谢,

Answer 1

在Perl中抓取网站的经典方法是使用WWW :: Mechanize,它有一个链接方法,返回页面中所有链接的列表.您可以抓取页面,从中获取链接,然后使用follow_link()或get()方法获取链接页面.

Answer 2

HTML :: SimpleLinkExtor比HTML :: LinkExtor简单.您可以查看我对我的webreaper工具的半心半意的尝试,该工具包含您可能需要的一些代码.